一、ggplot 相關系數圖
前言
相關系數圖是對相關系數矩陣進行可視化的,用于展示多組變量之間的相關性。
根據數據的分布特征,可以應用不同的相關系數計算方法,如 pearson
、spearman
、Kendall
等
相關系數矩陣的可視化圖形,可以是熱圖、氣泡圖、方塊圖、橢圓圖,也可以是純數字文本形式,等等。
下面我們介紹它們的繪制方法
示例
我們首先使用 ggplot2
包提供的函數來繪制這些圖形
先計算相關系數矩陣
mat <- as.data.frame(round(cor(mtcars), 2))
mat$var1 <- rownames(mat)
data <- gather(mat, key = "var2", value = "corr", -var1)
1. 熱圖
library(RColorBrewer)
# 獲取 5 個顏色
my_color <- brewer.pal(5, "Spectral")
ggplot(data, aes(var1, var2, fill = corr)) +
geom_tile(colour = "black") +
scale_fill_gradientn(colours = my_color)
2. 氣泡圖
ggplot(data, aes(var1, var2, fill = corr)) +
geom_point(aes(size = abs(corr)), shape = 21, colour = "black") +
scale_fill_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE)
3. 方塊圖
只要設置參數 shape = 22
,就可以換成方塊了
geom_point(aes(size = abs(corr)), shape = 22, colour = "black")
4. 設置標簽
使用 geom_text
添加標簽
geom_text(aes(label = corr), size = 3, colour = "black", alpha = 0.7)
為正負相關設置不同的顏色
geom_point(aes(fill = corr > 0, size = corr), shape = 21)
5. 混合繪圖
如果想繪制上三角或下三角該怎么做?
ggplot2
并沒有提供相應的操作,但是我們可以手動對數據進行處理,將對應的數據賦值為 NA
比如,我想繪制下三角。首先,把上三角賦值為 NA
mat <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:10) {
for (j in (i+1):11) {
mat[i,j] <- NA
}
}
然后將變量名的順序固定為行名順序
mat$var1 <- rownames(mat)
data <- gather(mat, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat)),
var2 = factor(var2, levels = rownames(mat)))
然后繪制圖形
my_color <- brewer.pal(5, "Spectral")
ggplot(data, aes(var1, var2)) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
geom_text(aes(label = corr), size = 3, colour = "white") +
scale_fill_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
theme(legend.position = "none")
如果想將文本和形狀分別繪制在上三角和下三角,操作也是類似的,只是要多添加一個上三角矩陣。
mat1 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:10) {
for (j in (i+1):11) {
mat1[i,j] <- NA
}
}
mat2 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:11) {
for (j in 1:i) {
mat2[i,j] <- NA
}
}
mat1$var1 <- rownames(mat1)
data1 <- gather(mat1, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat1)),
var2 = factor(var2, levels = rownames(mat1)))
mat2$var1 <- rownames(mat2)
data2 <- gather(mat2, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat2)),
var2 = factor(var2, levels = rownames(mat2)))
my_color <- brewer.pal(5, "Spectral")
ggplot(data1, aes(var1, var2)) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
scale_fill_gradientn(colours = my_color) +
scale_colour_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
theme(legend.position = "none")
如果要將對角線換成變量名,也很簡單
mat1 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:11) {
for (j in i:11) {
mat1[i,j] <- NA
}
}
mat2 <- as.data.frame(round(cor(mtcars), 2))
for (i in 1:11) {
for (j in 1:i) {
mat2[i,j] <- NA
}
}
var_name <- data1 %>%
filter(var1 == var2)
mat1$var1 <- rownames(mat1)
data1 <- gather(mat1, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat1)),
var2 = factor(var2, levels = rownames(mat1)))
mat2$var1 <- rownames(mat2)
data2 <- gather(mat2, key = "var2", value = "corr", -var1) %>%
mutate(var1 = factor(var1, levels = rownames(mat2)),
var2 = factor(var2, levels = rownames(mat2)))
my_color <- brewer.pal(5, "Spectral")
ggplot(data1, aes(var1, var2)) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
#geom_point(data = data2, aes(fill = corr, size = corr), shape = 23) +
geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
geom_text(data = var_name, aes(label = var1), size = 5) +
scale_fill_gradientn(colours = my_color) +
scale_colour_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
scale_x_discrete(position = 't') +
theme(
legend.position = "none",
axis.title = element_blank()
)
方塊配圓形
geom_point(data = data2, aes(fill = corr, size = corr), shape = 22) +
# geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
熱圖配圓形
ggplot(data1, aes(var1, var2)) +
geom_tile(data = data2, aes(fill = corr), na.rm = TRUE) +
geom_text(data = data2, aes(label = corr), colour = "black", size = 5) +
geom_point(aes(fill = corr, size = corr), shape = 21) +
geom_text(data = var_name, aes(label = var1), size = 5) +
scale_fill_gradientn(colours = my_color, na.value = "white") +
scale_colour_gradientn(colours = my_color) +
scale_size_area(max_size = 15, guide = FALSE) +
scale_x_discrete(position = 't') +
theme(
panel.background = element_blank(),
legend.position = "none",
axis.title = element_blank()
)
注意,需要將 geom_tile
放在最前面,同時設置 na.value
參數的值
代碼:https://github.com/dxsbiocc/learn/blob/main/R/plot/corr_plot.R
總結一下,其實用 ggplot2
做個性化繪圖沒那么難,重要的是理解其中的原理。
二、corrplot 相關系數圖
前言
前面,我們介紹了如何使用 ggplot2
來繪制相關系數圖,這節,我們將介紹用 corrplot
包繪制相關系數圖
corrplot
主要用于圖形化展示相關系數矩陣、置信區間,同時還包含一些矩陣排序算法。同時能夠以簡單的方式,選擇顏色、文本標簽和布局等
安裝導入
if (!require(corrplot)) {
install.packages("corrplot")
}
library(corrplot)
可視化方法
corrplot
包含 7
種可視化方法,可使用 method
參數來進行選擇,參數值如下
-
circle
:圓形
mat <- cor(mtcars)
corrplot(mat, method = "circle")
-
square
:方形
corrplot(mat, method = "square")
-
ellipse
:橢圓
corrplot(mat, method = "ellipse")
-
number
:數值
corrplot(mat, method = "number")
-
shade
:陰影
corrplot(mat, method = "shade")
-
color
:熱圖
corrplot(mat, method = "color")
-
pie
:餅圖
corrplot(mat, method = "pie")
默認情況下,使用紅藍兩種顏色,正相關顯示為藍色,負相關為紅色,顏色的強度和圖形的大小與相關性成正比
布局方式
corrplot
有三種布局方式,通過 type
參數設置
-
full
: 默認值,繪制整個相關系數矩陣 -
upper
: 繪制上三角矩陣 -
lower
: 繪制下三角矩陣
例如,上三角
corrplot(mat, method = "circle", type = "upper")
下三角
corrplot(mat, method = "circle", type = "lower")
那如何將不同圖形混合繪制呢?
corrplot
提供了一個封裝函數 corrplot.mixed
,用于繪制混合圖形
該函數通過 lower
, upper
兩個參數指定上下三角的類型,例如
corrplot.mixed(mat)
默認繪制上三角為圓形下三角為數字的圖形
設置對角線標簽放置的位置 tl.pos
和對角線圖像類型 diag
tl.pos
可以是 lt
、d
、n
,分別表示放在左側、對角線或不顯示
diag
可以是 u
、l
、n
分別表示與上、下三角一致或不繪制
corrplot.mixed(mat, tl.pos = "lt", diag = 'l')
設置顏色,其中 tl.col
為對角線標簽顏色,lower.col
和 upper.col
分別表示上、下三角的顏色
library(RColorBrewer)
corrplot.mixed(mat, lower = "ellipse", upper = "circle", tl.col = "black",
lower.col = brewer.pal(5, "Spectral"),
upper.col = brewer.pal(5, "Set2"))
矩陣重排
我們可以根據相關系數對矩陣進行重排,從矩陣中找到隱藏的結構和模式。
corrplot
有 4
種排序方法,通過 order
參數設置:
-
AOE
:特征向量的角度順序 -
FPC
:第一主成分順序 -
hclust
:層次聚類的順序,可以使用hclust.method
參數設置距離度量方法 -
alphabet
:字母表順序
corrplot(mat, order = "AOE")
corrplot(mat, order = "hclust")
對于 hclust
方式,可以為聚類結果繪制矩形,使用 addrect
參數來指定需要繪制矩形的數量
corrplot(mat, order = "hclust", hclust.method = "median", addrect = 3)
根據聚類結果,將顏色設置為 3
種,同時更改背景色
corrplot(mat, order = "hclust", hclust.method = "median", addrect = 3,
col = brewer.pal(3, "Set1"), bg = brewer.pal(7, "Set2")[7])
設置文本標簽及圖例
cl.*
參數是設置顏色圖例的參數,tl.*
是設置文本圖例的參數
例如,tl.col
和 tl.srt
用來設置文本標簽的顏色和旋轉
corrplot(mat, order = "FPC", cl.pos = "b", tl.srt = 45)
corrplot(mat, order = "FPC", cl.ratio = 0.2, cl.align = "l")
corrplot(mat, order = "hclust", type = "lower",
tl.pos = 'd', tl.cex = 1.25, tl.srt = 45, tl.col = "black")
缺失值處理
默認情況下,corrplot
會將 NA
值渲染為 ?
可以使用 na.label
參數設置 NA
值的顯示
mat2 <- mat
diag(mat2) <- NA
corrplot(mat2)
corrplot(mat2, na.label = "*")
plotmath 表達式
可以在文本標簽前面加上 :
、=
、$
字符前綴,來激活 plotmath
表達式渲染
mat2 <- mat[1:5,1:5]
colnames(mat2) <- c("alpha", "beta", ":alpha+beta", ":a[0]", "=a[beta]")
rownames(mat2) <- c("alpha", "beta", NA, "$a[0]", "$ a[beta]")
corrplot(mat2)
添加顯著性檢驗
我們還可以在圖像中添加顯著性信息。首先,使用 cor.mtest
計算顯著性 p
值和置信區間
> pmat <- cor.mtest(mtcars, conf.level = .95)
> str(pmat)
List of 3
$ p : num [1:11, 1:11] 0.00 6.11e-10 9.38e-10 1.79e-07 1.78e-05 ...
$ lowCI: num [1:11, 1:11] 1 -0.926 -0.923 -0.885 0.436 ...
$ uppCI: num [1:11, 1:11] 1 -0.716 -0.708 -0.586 0.832 ...
然后將計算結果中的 p
值傳遞給 p.mat
參數,同時設置顯著性水平 sig.level
,高于該值的相關系數被認為是不顯著的
corrplot(mat, p.mat = pmat$p, sig.level = 0.05)
可以看到,不顯著的相關系數被畫 Ⅹ
了,我們可以設置 insig = "blank"
不顯示不顯著的點
corrplot(mat, p.mat = pmat$p, sig.level = 0.05,
insig = "blank")
insig
參數還支持其他值
pch
: 默認值-
p-value
: 顯示 p 值
n
: 不做任何操作-
label_sig
: 用 * 來表示顯著性
搭配 sig.level
使用,按照等級繪制多個 *
corrplot(mat, p.mat = pmat$p, sig.level = c(.001, .01, .05),
insig = "label_sig", pch.cex = 0.9, pch.col = "white")
pch
參數可以設置顯著的點的顯示文本
corrplot(mat, p.mat = pmat$p, sig.level = 0.05, pch = "p < 0.05",
insig = "label_sig", pch.cex = 0.7, pch.col = "white")
顯示置信區間
根據上一步計算出的置信上下限,我們可以展示變量之間的置信區間
使用 lowCI.mat
和 uppCI.mat
來設置置信區間的上下限,使用 plotCI
參數來設置顯示的圖形,支持 n
(不顯示), square
, circle
, rect
四種類型
corrplot(mat, lowCI.mat = pmat$lowCI, uppCI.mat = pmat$uppCI,
order = "hclust", plotCI = "rect", cl.pos = "n")
最后,需要說明的一點是,該包不只是針對相關系數矩陣,也可以繪制其他類型的矩陣
例如
ran <- round(matrix(runif(225, -100,100), 15))
corrplot(ran, is.corr = FALSE, method = "ellipse", cl.lim = c(-100, 100))
如果行列數不一致,可以使用 win.asp
參數將圖形調整為正方形
ran <- matrix(rnorm(70), ncol = 7)
corrplot(ran, is.corr = FALSE, win.asp = .7, method = "circle")