分类变量具有多个类别,但是如果数据集很大且类别也很大,那么识别它们就会有些困难。因此,我们可以为分类变量提取唯一值,这将有助于我们轻松识别分类变量的类别。我们可以通过对R数据帧的每一列使用唯一的方法来做到这一点。
请看以下数据帧-
> x1<-rep(c("A","B","C","D"),each=5) > x2<-rep(c(5,10,15,20),times=c(2,8,6,4)) > x3<-rep(c("India","Russia","China","Indonesia","Iceland"),times=c(4,3,5,2,6)) > x4<-rep(c(letters[1:10]),times=2) > df<-data.frame(x1,x2,x3,x4) > df x1 x2 x3 x4 1 A 5 India a 2 A 5 India b 3 A 10 India c 4 A 10 India d 5 A 10 Russia e 6 B 10 Russia f 7 B 10 Russia g 8 B 10 China h 9 B 10 China i 10 B 10 China j 11 C 15 China a 12 C 15 China b 13 C 15 Indonesia c 14 C 15 Indonesia d 15 C 15 Iceland e 16 D 15 Iceland f 17 D 20 Iceland g 18 D 20 Iceland h 19 D 20 Iceland i 20 D 20 Iceland j
在列x1中找到唯一值-
> unique(df[c("x1")]) x1 1 A 6 B 11 C 16 D
在列x2中查找唯一值-
> unique(df[c("x2")]) x2 1 5 3 10 11 15 17 20
在列x3中查找唯一值-
> unique(df[c("x3")]) x3 1 India 5 Russia 8 China 13 Indonesia 15 Iceland
在列x4中查找唯一值-
> unique(df[c("x4")]) x4 1 a 2 b 3 c 4 d 5 e 6 f 7 g 8 h 9 i 10 j