如何使用R检测类别变量中的多重共线性?

多重共线性是与数字变量有关的术语。这意味着自变量彼此之间线性相关,并且本质上是数字。类别变量本质上是序数或名义变量,因此我们不能说它们可以线性相关。

示例

考虑以下数据帧-

x<-sample(LETTERS[1:4],30,replace=TRUE)
y<-sample(letters[1:4],30,replace=TRUE)
response<-rnorm(30)
df<-data.frame(x,y,response)
df
输出结果
   x  y   response
1  C  c   0.742577646
2  C  b   0.151037885
3  A  d   0.872867986
4  D  c   1.668988206
5  C  a  -0.310929854
6  B  b  -0.582732624
7  A  a  -1.189979792
8  A  d   0.869424789
9  B  c   1.321981265
10 A  c  -0.378250113
11 B  b   1.077948111
12 D  b  -1.166599657
13 A  b   1.218434700
14 B  b  -0.938781129
15 B  a   0.393036330
16 D  a   0.031261588
17 B  c  -0.926288814
18 D  b   0.807480575
19 A  d   2.056935369
20 B  c   0.464491514
21 B  d   0.466033703
22 D  b   0.236794674
23 D  b   0.761648127
24 C  b  -0.438568617
25 D  c  -1.806599022
26 B  c   0.885648179
27 A  b  -0.830359221
28 A  b   0.545703187
29 D  d   0.007146744
30 C  a  -0.243890913

查看分类列,并考虑如何找到这些列之间的相关性。