《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note5:使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換(下）

原文鏈接：《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note5:使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換(下）

3.4?使用?select()?選擇列

select()?函數(shù)對(duì)于航班數(shù)據(jù)不是特別有用，因?yàn)槠渲兄挥?19 個(gè)變量，但你還是可以通過(guò)這個(gè)數(shù)據(jù)集了解一下?select()?函數(shù)的大致用法：

1# 按名稱選擇列

2select(flights, year, month, day)

1# 選擇“year”和“day”之間的所有列（包括“year”和“day”）

2select(flights, year:day)

1# 選擇不在“year”和“day”之間的所有列（不包括“year”和“day”）

2select(flights, -(year:day))

還可以在 select () 函數(shù)中使用一些輔助函數(shù)。

??starts_with("abc")?：匹配以“abc”開(kāi)頭的名稱。

??ends_with("xyz")?：匹配以“xyz”結(jié)尾的名稱。

??contains("ijk")?：匹配包含“ijk”的名稱。

??matches("(.)\\1")?：選擇匹配正則表達(dá)式的那些變量。這個(gè)正則表達(dá)式會(huì)匹配名稱中有重復(fù)字符的變量(后續(xù)會(huì)有正則表達(dá)式的知識(shí))。

??num_range("x", 1:3)?：匹配 x1、x2 和 x3。

使用??select?命令可以獲取更多信息。

select()?可以重命名變量，但我們很少這樣使用它，因?yàn)檫@樣會(huì)丟掉所有未明確提及的變量。我們應(yīng)該使用?select()?函數(shù)的變體?rename()?函數(shù)來(lái)重命名變量，以保留所有未明確提及的變量：

1rename(flights, tail_num = tailnum)

另一種用法是將?select()?函數(shù)和?everything()?輔助函數(shù)結(jié)合起來(lái)使用。當(dāng)想要將幾個(gè)變量移到數(shù)據(jù)框開(kāi)頭時(shí)，這種用法非常奏效：

1select(flights, time_hour, air_time, everything())

1> select(flights, time_hour, air_time, everything())

2# A tibble: 336,776 x 19

3? time_hour? ? ? ? ? air_time? year month? day dep_time sched_dep_time

4? <dttm>? ? ? ? ? ? ? ? <dbl> <int> <int> <int>? ? <int>? ? ? ? ? <int>

5 1 2013-01-01 05:00:00? ? ? 227? 2013? ? 1? ? 1? ? ? 517? ? ? ? ? ? 515

6 2 2013-01-01 05:00:00? ? ? 227? 2013? ? 1? ? 1? ? ? 533? ? ? ? ? ? 529

7 3 2013-01-01 05:00:00? ? ? 160? 2013? ? 1? ? 1? ? ? 542? ? ? ? ? ? 540

8 4 2013-01-01 05:00:00? ? ? 183? 2013? ? 1? ? 1? ? ? 544? ? ? ? ? ? 545

9 5 2013-01-01 06:00:00? ? ? 116? 2013? ? 1? ? 1? ? ? 554? ? ? ? ? ? 600

10 6 2013-01-01 05:00:00? ? ? 150? 2013? ? 1? ? 1? ? ? 554? ? ? ? ? ? 558

11 7 2013-01-01 06:00:00? ? ? 158? 2013? ? 1? ? 1? ? ? 555? ? ? ? ? ? 600

12 8 2013-01-01 06:00:00? ? ? 53? 2013? ? 1? ? 1? ? ? 557? ? ? ? ? ? 600

13 9 2013-01-01 06:00:00? ? ? 140? 2013? ? 1? ? 1? ? ? 557? ? ? ? ? ? 600

1410 2013-01-01 06:00:00? ? ? 138? 2013? ? 1? ? 1? ? ? 558? ? ? ? ? ? 600

15# ... with 336,766 more rows, and 12 more variables: dep_delay <dbl>,

16#? arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, carrier <chr>,

17#? flight <int>, tailnum <chr>, origin <chr>, dest <chr>, distance <dbl>,

18#? hour <dbl>, minute <dbl>

3.5?使用?mutate()?添加新變量

除了選擇現(xiàn)有的列，我們還經(jīng)常需要添加新列，新列是現(xiàn)有列的函數(shù)。這就是?mutate()?函數(shù)的作用。

mutate()?總是將新列添加在數(shù)據(jù)集的最后，因此我們需要先創(chuàng)建一個(gè)更狹窄的數(shù)據(jù)集，以便能夠看到新變量。當(dāng)使用 RStudio 時(shí)，查看所有列的最簡(jiǎn)單的方法就是使用?View()函數(shù)：

1flights_sml <- select(flights,

2? ? ? ? ? ? ? ? ? ? ? year:day,

3? ? ? ? ? ? ? ? ? ? ? ends_with("delay"),

4? ? ? ? ? ? ? ? ? ? ? distance,

5? ? ? ? ? ? ? ? ? ? ? air_time)

7mutate(flights_sml,

8? ? ? gain = arr_delay - dep_delay,

9? ? ? speed = distance / air_time * 60)

1> mutate(flights_sml,

2+? ? ? ? gain = arr_delay - dep_delay,

3+? ? ? ? speed = distance / air_time * 60)

4# A tibble: 336,776 x 9

5? ? year month? day dep_delay arr_delay distance air_time? gain speed

6? <int> <int> <int>? ? <dbl>? ? <dbl>? ? <dbl>? ? <dbl> <dbl> <dbl>

7 1? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 11? ? 1400? ? ? 227? ? 9? 370.

8 2? 2013? ? 1? ? 1? ? ? ? 4? ? ? ? 20? ? 1416? ? ? 227? ? 16? 374.

9 3? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 33? ? 1089? ? ? 160? ? 31? 408.

10 4? 2013? ? 1? ? 1? ? ? ? -1? ? ? -18? ? 1576? ? ? 183? -17? 517.

11 5? 2013? ? 1? ? 1? ? ? ? -6? ? ? -25? ? ? 762? ? ? 116? -19? 394.

12 6? 2013? ? 1? ? 1? ? ? ? -4? ? ? ? 12? ? ? 719? ? ? 150? ? 16? 288.

13 7? 2013? ? 1? ? 1? ? ? ? -5? ? ? ? 19? ? 1065? ? ? 158? ? 24? 404.

14 8? 2013? ? 1? ? 1? ? ? ? -3? ? ? -14? ? ? 229? ? ? 53? -11? 259.

15 9? 2013? ? 1? ? 1? ? ? ? -3? ? ? ? -8? ? ? 944? ? ? 140? ? -5? 405.

1610? 2013? ? 1? ? 1? ? ? ? -2? ? ? ? 8? ? ? 733? ? ? 138? ? 10? 319.

17# ... with 336,766 more rows

一旦創(chuàng)建，新列就可以立即使用：

1> mutate(flights_sml,

2+? ? ? ? gain = arr_delay - dep_delay,

3+? ? ? ? hours = air_time / 60,

4+? ? ? ? gain_per_hour = gain / hours)

5# A tibble: 336,776 x 10

6? ? year month? day dep_delay arr_delay distance air_time? gain hours

7? <int> <int> <int>? ? <dbl>? ? <dbl>? ? <dbl>? ? <dbl> <dbl> <dbl>

8 1? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 11? ? 1400? ? ? 227? ? 9 3.78

9 2? 2013? ? 1? ? 1? ? ? ? 4? ? ? ? 20? ? 1416? ? ? 227? ? 16 3.78

10 3? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 33? ? 1089? ? ? 160? ? 31 2.67

11 4? 2013? ? 1? ? 1? ? ? ? -1? ? ? -18? ? 1576? ? ? 183? -17 3.05

12 5? 2013? ? 1? ? 1? ? ? ? -6? ? ? -25? ? ? 762? ? ? 116? -19 1.93

13 6? 2013? ? 1? ? 1? ? ? ? -4? ? ? ? 12? ? ? 719? ? ? 150? ? 16 2.5?

14 7? 2013? ? 1? ? 1? ? ? ? -5? ? ? ? 19? ? 1065? ? ? 158? ? 24 2.63

15 8? 2013? ? 1? ? 1? ? ? ? -3? ? ? -14? ? ? 229? ? ? 53? -11 0.883

16 9? 2013? ? 1? ? 1? ? ? ? -3? ? ? ? -8? ? ? 944? ? ? 140? ? -5 2.33

1710? 2013? ? 1? ? 1? ? ? ? -2? ? ? ? 8? ? ? 733? ? ? 138? ? 10 2.3?

18# ... with 336,766 more rows, and 1 more variable: gain_per_hour <dbl>

如果只想保留新變量，可以使用?transmute()?函數(shù)：

1> transmute(flights,

2+? ? ? ? ? gain = arr_delay - dep_delay,

3+? ? ? ? ? hours = air_time / 60,

4+? ? ? ? ? gain_per_hour = gain / hours)

5# A tibble: 336,776 x 3

6? ? gain hours gain_per_hour

7? <dbl> <dbl>? ? ? ? <dbl>

8 1? ? 9 3.78? ? ? ? ? 2.38

9 2? ? 16 3.78? ? ? ? ? 4.23

10 3? ? 31 2.67? ? ? ? ? 11.6

11 4? -17 3.05? ? ? ? ? -5.57

12 5? -19 1.93? ? ? ? ? -9.83

13 6? ? 16 2.5? ? ? ? ? ? 6.4

14 7? ? 24 2.63? ? ? ? ? 9.11

15 8? -11 0.883? ? ? ? -12.5

16 9? ? -5 2.33? ? ? ? ? -2.14

1710? ? 10 2.3? ? ? ? ? ? 4.35

18# ... with 336,766 more rows

3.5.1?常用創(chuàng)建函數(shù)

創(chuàng)建新變量的多種函數(shù)可供你同?mutate()?一同使用。最重要的一點(diǎn)是，這種函數(shù)必須是向量化的：它必須接受一個(gè)向量作為輸入，并返回一個(gè)向量作為輸出，而且輸入向量與輸出向量具有同樣數(shù)目的分量。下面是比較常用的函數(shù)。

算術(shù)運(yùn)算符：+、-、*、/、^

模運(yùn)算符：%/% 和 %%

%/%（整數(shù)除法）和 %%（求余）滿足 x == y * (x %/% y) + (x %% y)。模運(yùn)算可以拆分整數(shù)。例如，在航班數(shù)據(jù)集中，你可以根據(jù) dep_time 計(jì)算出 hour

和 minute：

1> transmute(flights,

2+? ? ? ? ? dep_time,

3+? ? ? ? ? hour = dep_time %/% 100,

4+? ? ? ? ? minute = dep_time %% 100)

5# A tibble: 336,776 x 3

6? dep_time? hour minute

7? ? ? <int> <dbl>? <dbl>

8 1? ? ? 517? ? 5? ? 17

9 2? ? ? 533? ? 5? ? 33

10 3? ? ? 542? ? 5? ? 42

11 4? ? ? 544? ? 5? ? 44

12 5? ? ? 554? ? 5? ? 54

13 6? ? ? 554? ? 5? ? 54

14 7? ? ? 555? ? 5? ? 55

15 8? ? ? 557? ? 5? ? 57

16 9? ? ? 557? ? 5? ? 57

1710? ? ? 558? ? 5? ? 58

18# ... with 336,766 more rows

對(duì)數(shù)函數(shù)：log()、log2() 和 log10()

偏移函數(shù)

lead() 和 lag() 函數(shù)可以返回一個(gè)序列的領(lǐng)先值和滯后值。它們可以計(jì)算出序列的移動(dòng)差值（如 x – lag(x)）或發(fā)現(xiàn)序列何時(shí)發(fā)生了變化（x != lag(x)）。

1> (x <- 1:10)

2 [1]? 1? 2? 3? 4? 5? 6? 7? 8? 9 10

3> lag(x)

4 [1] NA? 1? 2? 3? 4? 5? 6? 7? 8? 9

5> lead(x)

6 [1]? 2? 3? 4? 5? 6? 7? 8? 9 10 NA

累加和滾動(dòng)聚合

R 提供了計(jì)算累加和、累加積、累加最小值和累加最大值的函數(shù)：cumsum()、cumprod()、commin()?和?cummax()；dplyr 還提供了?cummean()?函數(shù)以計(jì)算累加均值。如果想要計(jì)算滾動(dòng)聚合（即滾動(dòng)窗口求和），那么可以嘗試使用?RcppRoll?包：

1> x

2 [1]? 1? 2? 3? 4? 5? 6? 7? 8? 9 10

3> cumsum(x)

4 [1]? 1? 3? 6 10 15 21 28 36 45 55

5> cummean(x)

6 [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

邏輯比較：<、<=、>、>= 和 !=

排秩

排秩函數(shù)有很多，最常用的是min_rank()函數(shù)。它可以完成最常用的排秩任務(wù) (如第一、第二、第三、第四)。默認(rèn)的排秩方式是，最小的值獲得最前面的名次，使用desc(x)?可以讓最大的值獲得最前面的名次：

1> y <- c(1, 2, 2, NA, 3, 4)

2> min_rank(y)

3[1]? 1? 2? 2 NA? 4? 5

4> min_rank(desc(y))

5[1]? 5? 3? 3 NA? 2? 1

如果?min_rank()?無(wú)法滿足需要，那么可以看一下其變體row_number()、dense_rank()、percent_rank()、cume_dist()?和?ntile()。可以查看它們的幫助頁(yè)面以獲得更多信息

1> row_number(y)

2[1]? 1? 2? 3 NA? 4? 5

3> dense_rank(y)

4[1]? 1? 2? 2 NA? 3? 4

5> percent_rank(y)

6[1] 0.00 0.25 0.25? NA 0.75 1.00

7> cume_dist(y)

8[1] 0.2 0.6 0.6? NA 0.8 1.0

3.6?使用?summarize()?進(jìn)行分組摘要

最后一個(gè)核心函數(shù)是?summarize()，它可以將數(shù)據(jù)框折疊成一行：

1> summarize(flights, delay = mean(dep_delay, na.rm = TRUE))

2# A tibble: 1 x 1

3? delay

4? <dbl>

51? 12.6

group_by()?可以將分析單位從整個(gè)數(shù)據(jù)集更改為單個(gè)分組。接下來(lái)，在分組后的數(shù)據(jù)框上使用?dplyr?函數(shù)時(shí)，

它們會(huì)自動(dòng)地應(yīng)用到每個(gè)分組。例如，如果對(duì)按日期分組的一個(gè)數(shù)據(jù)框應(yīng)用與上面完全相同的代碼，那么我們就可以得到每日平均延誤時(shí)間：

1> by_day <- group_by(flights, year, month, day)

2> summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))

3`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)

4# A tibble: 365 x 4

5# Groups:? year, month [12]

6? ? year month? day delay

7? <int> <int> <int> <dbl>

8 1? 2013? ? 1? ? 1 11.5

9 2? 2013? ? 1? ? 2 13.9

10 3? 2013? ? 1? ? 3 11.0

11 4? 2013? ? 1? ? 4? 8.95

12 5? 2013? ? 1? ? 5? 5.73

13 6? 2013? ? 1? ? 6? 7.15

14 7? 2013? ? 1? ? 7? 5.42

15 8? 2013? ? 1? ? 8? 2.55

16 9? 2013? ? 1? ? 9? 2.28

1710? 2013? ? 1? ? 10? 2.84

18# ... with 355 more rows

group_by()?和?summarize()?的組合構(gòu)成了使用 dplyr 包時(shí)最常用的操作之一：分組摘要。

3.6.1?使用管道組合多種操作

例子：每個(gè)目的地的距離和平均延誤時(shí)間之間的關(guān)系。

1by_dest <- group_by(flights, dest) #按照目的地對(duì)航班進(jìn)行分組

2delay <- summarize(by_dest,

3? ? ? ? ? ? ? ? ? count = n(),

4? ? ? ? ? ? ? ? ? dist = mean(distance, na.rm = TRUE),

5? ? ? ? ? ? ? ? ? delay = mean(arr_delay, na.rm = TRUE)

6) # 進(jìn)行摘要統(tǒng)計(jì)，計(jì)算距離、平均延誤時(shí)間和航班數(shù)量。

8delay <- filter(delay, count > 20, dest != "HNL")

9#通過(guò)篩選除去噪聲點(diǎn)和火奴魯魯機(jī)場(chǎng)，因?yàn)榈竭_(dá)該機(jī)場(chǎng)的距離幾乎是到離它最近機(jī)場(chǎng)的

10#距離的 2 倍。

11ggplot(data = delay, mapping = aes(x = dist, y = delay)) +

12? geom_point(aes(size = count), alpha = 1/3) +

13? geom_smooth(se = FALSE) #畫(huà)圖并添加曲線

使用管道，%>%，可以使代碼更加簡(jiǎn)潔：

1delays <- flights %>%

2 group_by(dest) %>%

3 summarize(

4 count = n(),

5 dist = mean(distance, na.rm = TRUE),

6 delay = mean(arr_delay, na.rm = TRUE)

7) %>%

8filter(count > 20, dest != "HNL")

你可以將其讀作一串命令式語(yǔ)句：分組，然后摘要統(tǒng)計(jì)，然后進(jìn)行篩選。在閱讀代碼時(shí)，%>% 最好讀作“然后”。

使用這種方法時(shí)，x %>% f(y)?會(huì)轉(zhuǎn)換為?f(x, y)，x %>% f(y) %>% g(z)?會(huì)轉(zhuǎn)換為?g(f(x,

y), z)，以此類推。

3.6.2?缺失值

我們?cè)谇懊媸褂昧藚?shù)?na.rm?。如果沒(méi)有設(shè)置這個(gè)參數(shù)，會(huì)發(fā)生什么情況呢？

1> flights %>%

2+? group_by(year, month, day) %>%

3+? summarize(mean = mean(dep_delay))

4`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)

5# A tibble: 365 x 4

6# Groups:? year, month [12]

7? ? year month? day? mean

8? <int> <int> <int> <dbl>

9 1? 2013? ? 1? ? 1? ? NA

10 2? 2013? ? 1? ? 2? ? NA

11 3? 2013? ? 1? ? 3? ? NA

12 4? 2013? ? 1? ? 4? ? NA

13 5? 2013? ? 1? ? 5? ? NA

14 6? 2013? ? 1? ? 6? ? NA

15 7? 2013? ? 1? ? 7? ? NA

16 8? 2013? ? 1? ? 8? ? NA

17 9? 2013? ? 1? ? 9? ? NA

1810? 2013? ? 1? ? 10? ? NA

19# ... with 355 more rows

我們會(huì)得到很多缺失值！這是因?yàn)榫酆虾瘮?shù)遵循缺失值的一般規(guī)則：如果輸入中有缺失值，那么輸出也會(huì)是缺失值。好在所有聚合函數(shù)都有一個(gè)?na.rm?參數(shù)，它可以在計(jì)算前除去缺失值。

1> flights %>%

2+? group_by(year, month, day) %>%

3+? summarize(mean = mean(dep_delay, na.rm = TRUE))

4`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)

5# A tibble: 365 x 4

6# Groups:? year, month [12]

7? ? year month? day? mean

8? <int> <int> <int> <dbl>

9 1? 2013? ? 1? ? 1 11.5

10 2? 2013? ? 1? ? 2 13.9

11 3? 2013? ? 1? ? 3 11.0

12 4? 2013? ? 1? ? 4? 8.95

13 5? 2013? ? 1? ? 5? 5.73

14 6? 2013? ? 1? ? 6? 7.15

15 7? 2013? ? 1? ? 7? 5.42

16 8? 2013? ? 1? ? 8? 2.55

17 9? 2013? ? 1? ? 9? 2.28

1810? 2013? ? 1? ? 10? 2.84

19# ... with 355 more rows

當(dāng)然，我們也可以通過(guò)先去除缺失值（本例為取消的航班）來(lái)解決缺失值問(wèn)題。

1not_cancelled <- flights %>%

2 filter(!is.na(dep_delay), !is.na(arr_delay))

3.6.3?計(jì)數(shù)

聚合操作中包括一個(gè)計(jì)數(shù)（n()）或非缺失值的計(jì)數(shù)（sum(!is_na())）可以確保自己沒(méi)有基于非常少量的數(shù)據(jù)作出結(jié)論。例如，我們查看一下具有最長(zhǎng)平均延誤時(shí)間的飛機(jī)（通過(guò)機(jī)尾編號(hào)進(jìn)行識(shí)別）：

1delays <- not_cancelled %>% #去掉NA的數(shù)據(jù)

2? group_by(tailnum) %>%

3? summarize(

4? ? delay = mean(arr_delay)

5? )

6delays

8ggplot(data = delays, mapping = aes(x = delay)) +

9? geom_freqpoly(binwidth = 10)

我們可以畫(huà)一張航班數(shù)量和平均延誤時(shí)間的散點(diǎn)圖：

1delays <- not_cancelled %>%

2? group_by(tailnum) %>%

3? summarize(

4? ? delay = mean(arr_delay, na.rm = TRUE),

5? ? n = n()

6? )

7ggplot(data = delays, mapping = aes(x = n, y = delay)) +

8? geom_point(alpha = 1/10)

結(jié)果并不出乎意料，當(dāng)航班數(shù)量非常少時(shí)，平均延誤時(shí)間的變動(dòng)特別大。這張圖的形狀非常能夠說(shuō)明問(wèn)題：當(dāng)繪制均值（或其他摘要統(tǒng)計(jì)量）和分組規(guī)模的關(guān)系時(shí)，你總能看到隨著樣本量的增加，變動(dòng)在不斷減小。

3.6.4?常用的摘要函數(shù)

只使用均值、計(jì)數(shù)和求和是遠(yuǎn)遠(yuǎn)不夠的，R 中還提供了很多其他的常用的摘要函數(shù)。

位置度量：?mean(x)，median(x)

分散程度度量：sd(x)、IQR(x)?和?mad(x)

均方誤差（又稱標(biāo)準(zhǔn)誤差，standard deviation，sd）是分散程度的標(biāo)準(zhǔn)度量方式。四分位距 IQR() 和絕對(duì)中位差 mad(x) 基本等價(jià)，更適合有離群點(diǎn)的情況。

1# 為什么到某些目的地的距離比到其他目的地更多變？

2not_cancelled %>%

3? group_by(dest) %>%

4? summarize(distance_sd = sd(distance)) %>%

5? arrange(desc(distance_sd))

7> not_cancelled %>%

8+? group_by(dest) %>%

9+? summarize(distance_sd = sd(distance)) %>%

10+? arrange(desc(distance_sd))

11`summarise()` ungrouping output (override with `.groups` argument)

12# A tibble: 104 x 2

13? dest? distance_sd

14? <chr>? ? ? <dbl>

15 1 EGE? ? ? ? 10.5

16 2 SAN? ? ? ? 10.4

17 3 SFO? ? ? ? 10.2

18 4 HNL? ? ? ? 10.0

19 5 SEA? ? ? ? ? 9.98

20 6 LAS? ? ? ? ? 9.91

21 7 PDX? ? ? ? ? 9.87

22 8 PHX? ? ? ? ? 9.86

23 9 LAX? ? ? ? ? 9.66

2410 IND? ? ? ? ? 9.46

25# ... with 94 more rows

秩的度量：min(x)、quantile(x, 0.25)?和?max(x)

分位數(shù)是中位數(shù)的擴(kuò)展。例如，quantile(x, 0.25) 會(huì)找出 x 中按從小到大順序大于前 25% 而小于后 75% 的值

定位度量：first(x)、nth(x, 2)?和?last(x)

計(jì)數(shù)：

n()?，它不需要任何參數(shù)，并返回當(dāng)前分組的大小。如果想要計(jì)算出非缺失值的數(shù)量，可以使用?sum(!is.na(x))。要想計(jì)算出唯一值的數(shù)量，可以使用?n_

distinct(x)：

1# 哪個(gè)目的地具有最多的航空公司？

2not_cancelled %>%

3 group_by(dest) %>%

4 summarize(carriers = n_distinct(carrier)) %>%

5 arrange(desc(carriers))

dplyr?提供了一個(gè)簡(jiǎn)單的輔助函數(shù)，用于只需要計(jì)數(shù)的情況：

1not_cancelled %>%

2 count(dest)

還可以選擇提供一個(gè)加權(quán)變量。例如，你可以使用以下代碼算出每架飛機(jī)飛行的總里程數(shù)（實(shí)際上就是求和）：

1not_cancelled %>%

2 count(tailnum, wt = distance)

邏輯值的計(jì)數(shù)和比例：sum(x > 10)?和?mean(y == 0)

1# 多少架航班是在早上5點(diǎn)前出發(fā)的？（這通常表明前一天延誤的航班數(shù)量）

2not_cancelled %>%

3 group_by(year, month, day) %>%

4 summarize(n_early = sum(dep_time < 500))

6# 延誤超過(guò)1小時(shí)的航班比例是多少？

7not_cancelled %>%

8 group_by(year, month, day) %>%

9 summarize(hour_perc = mean(arr_delay > 60))

3.6.5?按多個(gè)變量分組

當(dāng)使用多個(gè)變量進(jìn)行分組時(shí)，每次的摘要統(tǒng)計(jì)會(huì)用掉一個(gè)分組變量。這樣就可以輕松地對(duì)數(shù)據(jù)集進(jìn)行循序漸進(jìn)的分析：

1daily <- group_by(flights, year, month, day)

2(per_day <- summarize(daily, flights = n()))

4(per_month <- summarize(per_day, flights = sum(flights)))

6(per_year <- summarize(per_month, flights = sum(flights)))

在循序漸進(jìn)地進(jìn)行摘要分析時(shí)，需要小心：使用求和與計(jì)數(shù)操作是沒(méi)問(wèn)題的，但如果想要使用加權(quán)平均和方差的話，就要仔細(xì)考慮一下，在基于秩的統(tǒng)計(jì)數(shù)據(jù)（如中位數(shù)）上是無(wú)法進(jìn)行這些操作的。換句話說(shuō)，對(duì)分組求和的結(jié)果再求和就是對(duì)整體求和，但分組中位數(shù)的中位數(shù)可不是整體的中位數(shù)。

3.6.6?取消分組

如果想要取消分組，并回到未分組的數(shù)據(jù)繼續(xù)操作，那么可以使用 ungroup() 函數(shù)：

1daily %>%

2? ungroup() %>% # 不再按日期分組

3? summarize(flights = n()) # 所有航班

3.7?分組新變量（和篩選器)

雖然與?summarize()?函數(shù)結(jié)合起來(lái)使用是最有效的，但分組也可以與?mutate()?和?filter()函數(shù)結(jié)合，以完成非常便捷的操作。

找出每個(gè)分組中最差的成員：

1flights_sml %>%

2 group_by(year, month, day) %>%

3 filter(rank(desc(arr_delay)) < 10)

找出大于某個(gè)閾值的所有分組：

1popular_dests <- flights %>%

2 group_by(dest) %>%

3 filter(n() > 365)

對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化以計(jì)算分組指標(biāo)：

1popular_dests %>%

2 filter(arr_delay > 0) %>%

3 mutate(prop_delay = arr_delay / sum(arr_delay)) %>%

4 select(year:day, dest, arr_delay, prop_delay)

— END —

《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note2:使用ggplot2進(jìn)行數(shù)據(jù)可視化(上）

《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note3:使用ggplot2進(jìn)行數(shù)據(jù)可視化(下）

《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note4:使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換(上）

零基礎(chǔ)"機(jī)器學(xué)習(xí)"自學(xué)筆記|Note5:多變量線性回歸

零基礎(chǔ)"機(jī)器學(xué)習(xí)"自學(xué)筆記|Note6:正規(guī)方程及其推導(dǎo)(內(nèi)附詳細(xì)推導(dǎo)過(guò)程)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評(píng)論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,185評(píng)論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 175,656評(píng)論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 62,647評(píng)論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,446評(píng)論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 54,951評(píng)論 1贊 321
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評(píng)論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 42,189評(píng)論 0贊 287
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,718評(píng)論 1贊 333
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,602評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,800評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評(píng)論 5贊 358
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,045評(píng)論 3贊 347
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 34,419評(píng)論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 35,671評(píng)論 1贊 281
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,420評(píng)論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,755評(píng)論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note5:使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換(下）

《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note5:使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換(下）

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

《R數(shù)據(jù)科學(xué)》學(xué)習(xí)筆記|Note5:使用dplyr進(jìn)行數(shù)據(jù)轉(zhuǎn)換(下）

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频