R 數據可視化 —— 相關系數圖

一、ggplot 相關系數圖

前言

相關系數圖是對相關系數矩陣進行可視化的,用于展示多組變量之間的相關性。

根據數據的分布特征,可以應用不同的相關系數計算方法,如 pearsonspearmanKendall

相關系數矩陣的可視化圖形,可以是熱圖、氣泡圖、方塊圖、橢圓圖,也可以是純數字文本形式,等等。

下面我們介紹它們的繪制方法

示例

我們首先使用 ggplot2 包提供的函數來繪制這些圖形

先計算相關系數矩陣

mat <- as.data.frame(round(cor(mtcars), 2))
mat$var1 <- rownames(mat)
data <- gather(mat, key = "var2", value = "corr", -var1)

1. 熱圖

library(RColorBrewer)
# 獲取 5 個顏色
my_color <- brewer.pal(5, "Spectral")

ggplot(data, aes(var1, var2, fill = corr)) +
  geom_tile(colour = "black") +
  scale_fill_gradientn(colours = my_color)

2. 氣泡圖

ggplot(data, aes(var1, var2, fill = corr)) +
  geom_point(aes(size = abs(corr)), shape = 21, colour = "black") +
  scale_fill_gradientn(colours = my_color) +
  scale_size_area(max_size = 15, guide = FALSE)

3. 方塊圖

只要設置參數 shape = 22,就可以換成方塊了

geom_point(aes(size = abs(corr)), shape = 22, colour = "black") 

4. 設置標簽

使用 geom_text 添加標簽

geom_text(aes(label = corr), size = 3, colour = "black", alpha = 0.7)

為正負相關設置不同的顏色

geom_point(aes(fill = corr > 0, size = corr), shape = 21)

5. 混合繪圖

如果想繪制上三角或下三角該怎么做?

ggplot2 并沒有提供相應的操作,但是我們可以手動對數據進行處理,將對應的數據賦值為 NA

比如,我想繪制下三角。首先,把上三角賦值為 NA

mat <- as.data.frame(round(cor(mtcars), 2))

for (i in 1:10) {
  for (j in (i+1):11) {
    mat[i,j] <- NA
  }
}

然后將變量名的順序固定為行名順序

mat$var1 <- rownames(mat)
data <- gather(mat, key = "var2", value = "corr", -var1) %>%
  mutate(var1 = factor(var1, levels = rownames(mat)),
         var2 = factor(var2, levels = rownames(mat)))

然后繪制圖形

my_color <- brewer.pal(5, "Spectral")

ggplot(data, aes(var1, var2)) +
  geom_point(aes(fill = corr, size = corr), shape = 21) +
  geom_text(aes(label = corr), size = 3, colour = "white") +
  scale_fill_gradientn(colours = my_color) +
  scale_size_area(max_size = 15, guide = FALSE) +
  theme(legend.position = "none")

如果想將文本和形狀分別繪制在上三角和下三角,操作也是類似的,只是要多添加一個上三角矩陣。

mat1 <- as.data.frame(round(cor(mtcars), 2))

for (i in 1:10) {
  for (j in (i+1):11) {
    mat1[i,j] <- NA
  }
}

mat2 <- as.data.frame(round(cor(mtcars), 2))

for (i in 1:11) {
  for (j in 1:i) {
    mat2[i,j] <- NA
  }
}


mat1$var1 <- rownames(mat1)
data1 <- gather(mat1, key = "var2", value = "corr", -var1) %>%
  mutate(var1 = factor(var1, levels = rownames(mat1)),
         var2 = factor(var2, levels = rownames(mat1)))

mat2$var1 <- rownames(mat2)
data2 <- gather(mat2, key = "var2", value = "corr", -var1) %>%
  mutate(var1 = factor(var1, levels = rownames(mat2)),
         var2 = factor(var2, levels = rownames(mat2)))

my_color <- brewer.pal(5, "Spectral")

ggplot(data1, aes(var1, var2)) +
  geom_point(aes(fill = corr, size = corr), shape = 21) +
  geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
  scale_fill_gradientn(colours = my_color) +
  scale_colour_gradientn(colours = my_color) +
  scale_size_area(max_size = 15, guide = FALSE) +
  theme(legend.position = "none")

如果要將對角線換成變量名,也很簡單

mat1 <- as.data.frame(round(cor(mtcars), 2))

for (i in 1:11) {
  for (j in i:11) {
    mat1[i,j] <- NA
  }
}

mat2 <- as.data.frame(round(cor(mtcars), 2))

for (i in 1:11) {
  for (j in 1:i) {
    mat2[i,j] <- NA
  }
}

var_name <- data1 %>% 
  filter(var1 == var2)

mat1$var1 <- rownames(mat1)
data1 <- gather(mat1, key = "var2", value = "corr", -var1) %>%
  mutate(var1 = factor(var1, levels = rownames(mat1)),
         var2 = factor(var2, levels = rownames(mat1)))

mat2$var1 <- rownames(mat2)
data2 <- gather(mat2, key = "var2", value = "corr", -var1) %>%
  mutate(var1 = factor(var1, levels = rownames(mat2)),
         var2 = factor(var2, levels = rownames(mat2)))

my_color <- brewer.pal(5, "Spectral")

ggplot(data1, aes(var1, var2)) +
  geom_point(aes(fill = corr, size = corr), shape = 21) +
  #geom_point(data = data2, aes(fill = corr, size = corr), shape = 23) +
  geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +
  geom_text(data = var_name, aes(label = var1), size = 5) +
  scale_fill_gradientn(colours = my_color) +
  scale_colour_gradientn(colours = my_color) +
  scale_size_area(max_size = 15, guide = FALSE) +
  scale_x_discrete(position = 't') +
  theme(
    legend.position = "none",
    axis.title = element_blank()
    )

方塊配圓形

geom_point(data = data2, aes(fill = corr, size = corr), shape = 22) +
# geom_text(data = data2, aes(label = corr, colour = corr), size = 5) +

熱圖配圓形

ggplot(data1, aes(var1, var2)) +
  geom_tile(data = data2, aes(fill = corr), na.rm = TRUE) +
  geom_text(data = data2, aes(label = corr), colour = "black", size = 5) +
  geom_point(aes(fill = corr, size = corr), shape = 21) +
  geom_text(data = var_name, aes(label = var1), size = 5) +
  scale_fill_gradientn(colours = my_color, na.value = "white") +
  scale_colour_gradientn(colours = my_color) +
  scale_size_area(max_size = 15, guide = FALSE) +
  scale_x_discrete(position = 't') +
  theme(
    panel.background = element_blank(),
    legend.position = "none",
    axis.title = element_blank()
    )

注意,需要將 geom_tile 放在最前面,同時設置 na.value 參數的值

代碼:https://github.com/dxsbiocc/learn/blob/main/R/plot/corr_plot.R

總結一下,其實用 ggplot2 做個性化繪圖沒那么難,重要的是理解其中的原理。

二、corrplot 相關系數圖

前言

前面,我們介紹了如何使用 ggplot2 來繪制相關系數圖,這節,我們將介紹用 corrplot 包繪制相關系數圖

corrplot 主要用于圖形化展示相關系數矩陣、置信區間,同時還包含一些矩陣排序算法。同時能夠以簡單的方式,選擇顏色、文本標簽和布局等

安裝導入

if (!require(corrplot)) {
  install.packages("corrplot")
}

library(corrplot)

可視化方法

corrplot 包含 7 種可視化方法,可使用 method 參數來進行選擇,參數值如下

  1. circle:圓形
mat <- cor(mtcars)

corrplot(mat, method = "circle")
  1. square:方形
corrplot(mat, method = "square")
  1. ellipse:橢圓
corrplot(mat, method = "ellipse")
  1. number:數值
corrplot(mat, method = "number")
  1. shade:陰影
corrplot(mat, method = "shade")
  1. color:熱圖
corrplot(mat, method = "color")
  1. pie:餅圖
corrplot(mat, method = "pie")

默認情況下,使用紅藍兩種顏色,正相關顯示為藍色,負相關為紅色,顏色的強度和圖形的大小與相關性成正比

布局方式

corrplot 有三種布局方式,通過 type 參數設置

  1. full: 默認值,繪制整個相關系數矩陣
  2. upper: 繪制上三角矩陣
  3. lower: 繪制下三角矩陣

例如,上三角

corrplot(mat, method = "circle", type = "upper")

下三角

corrplot(mat, method = "circle", type = "lower")

那如何將不同圖形混合繪制呢?

corrplot 提供了一個封裝函數 corrplot.mixed,用于繪制混合圖形

該函數通過 lower, upper 兩個參數指定上下三角的類型,例如

corrplot.mixed(mat)

默認繪制上三角為圓形下三角為數字的圖形

設置對角線標簽放置的位置 tl.pos 和對角線圖像類型 diag

tl.pos 可以是 ltdn,分別表示放在左側、對角線或不顯示

diag 可以是 uln 分別表示與上、下三角一致或不繪制

corrplot.mixed(mat, tl.pos = "lt", diag = 'l')

設置顏色,其中 tl.col 為對角線標簽顏色,lower.colupper.col 分別表示上、下三角的顏色

library(RColorBrewer)

corrplot.mixed(mat, lower = "ellipse", upper = "circle", tl.col = "black",
               lower.col = brewer.pal(5, "Spectral"), 
               upper.col = brewer.pal(5, "Set2"))

矩陣重排

我們可以根據相關系數對矩陣進行重排,從矩陣中找到隱藏的結構和模式。

corrplot4 種排序方法,通過 order 參數設置:

  • AOE:特征向量的角度順序
  • FPC:第一主成分順序
  • hclust:層次聚類的順序,可以使用 hclust.method 參數設置距離度量方法
  • alphabet:字母表順序
corrplot(mat, order = "AOE")
corrplot(mat, order = "hclust")

對于 hclust 方式,可以為聚類結果繪制矩形,使用 addrect 參數來指定需要繪制矩形的數量

corrplot(mat, order = "hclust", hclust.method = "median", addrect = 3)

根據聚類結果,將顏色設置為 3 種,同時更改背景色

corrplot(mat, order = "hclust", hclust.method = "median", addrect = 3,
         col = brewer.pal(3, "Set1"), bg = brewer.pal(7, "Set2")[7])

設置文本標簽及圖例

cl.* 參數是設置顏色圖例的參數,tl.* 是設置文本圖例的參數

例如,tl.coltl.srt 用來設置文本標簽的顏色和旋轉

corrplot(mat, order = "FPC", cl.pos = "b", tl.srt = 45)
corrplot(mat, order = "FPC", cl.ratio = 0.2, cl.align = "l")
corrplot(mat, order = "hclust", type = "lower", 
         tl.pos = 'd', tl.cex = 1.25, tl.srt = 45, tl.col = "black")

缺失值處理

默認情況下,corrplot 會將 NA 值渲染為 ? 可以使用 na.label 參數設置 NA 值的顯示

mat2 <- mat
diag(mat2) <- NA

corrplot(mat2)
corrplot(mat2, na.label = "*")

plotmath 表達式

可以在文本標簽前面加上 :=$ 字符前綴,來激活 plotmath 表達式渲染

mat2 <- mat[1:5,1:5]
colnames(mat2) <- c("alpha", "beta", ":alpha+beta", ":a[0]", "=a[beta]")
rownames(mat2) <- c("alpha", "beta", NA, "$a[0]", "$ a[beta]")

corrplot(mat2)

添加顯著性檢驗

我們還可以在圖像中添加顯著性信息。首先,使用 cor.mtest 計算顯著性 p 值和置信區間

> pmat <- cor.mtest(mtcars, conf.level = .95)
> str(pmat)
List of 3
 $ p    : num [1:11, 1:11] 0.00 6.11e-10 9.38e-10 1.79e-07 1.78e-05 ...
 $ lowCI: num [1:11, 1:11] 1 -0.926 -0.923 -0.885 0.436 ...
 $ uppCI: num [1:11, 1:11] 1 -0.716 -0.708 -0.586 0.832 ...

然后將計算結果中的 p 值傳遞給 p.mat 參數,同時設置顯著性水平 sig.level,高于該值的相關系數被認為是不顯著的

corrplot(mat, p.mat = pmat$p, sig.level = 0.05)

可以看到,不顯著的相關系數被畫 了,我們可以設置 insig = "blank" 不顯示不顯著的點

corrplot(mat, p.mat = pmat$p, sig.level = 0.05,
         insig = "blank")

insig 參數還支持其他值

  • pch: 默認值

  • p-value: 顯示 p 值

  • n: 不做任何操作

  • label_sig: 用 * 來表示顯著性

搭配 sig.level 使用,按照等級繪制多個 *

corrplot(mat, p.mat = pmat$p, sig.level = c(.001, .01, .05),
         insig = "label_sig", pch.cex = 0.9, pch.col = "white")

pch 參數可以設置顯著的點的顯示文本

corrplot(mat, p.mat = pmat$p, sig.level = 0.05, pch = "p < 0.05",
         insig = "label_sig", pch.cex = 0.7, pch.col = "white")

顯示置信區間

根據上一步計算出的置信上下限,我們可以展示變量之間的置信區間

使用 lowCI.matuppCI.mat 來設置置信區間的上下限,使用 plotCI 參數來設置顯示的圖形,支持 n(不顯示), square, circle, rect 四種類型

corrplot(mat, lowCI.mat = pmat$lowCI, uppCI.mat = pmat$uppCI,
         order = "hclust", plotCI = "rect", cl.pos = "n")

最后,需要說明的一點是,該包不只是針對相關系數矩陣,也可以繪制其他類型的矩陣

例如

ran <- round(matrix(runif(225, -100,100), 15))
corrplot(ran, is.corr = FALSE, method = "ellipse", cl.lim = c(-100, 100))

如果行列數不一致,可以使用 win.asp 參數將圖形調整為正方形

ran <- matrix(rnorm(70), ncol = 7)
corrplot(ran, is.corr = FALSE, win.asp = .7, method = "circle")
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,748評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,165評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,595評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,633評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,435評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,943評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,035評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,175評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,713評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,599評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,788評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,303評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,034評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,412評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,664評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,408評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,747評論 2 370

推薦閱讀更多精彩內容