R數據科學》學習筆記|Note4:使用dplyr進行數據轉換(上）

原文鏈接：

R數據科學》學習筆記|Note4:使用dplyr進行數據轉換(上）

3.1

簡介

一般來說，你需要創建一些新變量或者摘要統計量，還可能對變量進行重命名或對觀測值進行重新排序，以便數據更容易處理。你將在本章中學會如何進行這些甚至更多操作，本章將教會你如何使用?dplyr?包來轉換數據，并介紹一個新的數據集：2013 年從紐約市出發的航班信息。

3.1.1

準備工作

本章將重點討論如何使用 tidyverse 中的另一個核心 R 包—dplyr?包。我們使用nycflights13?包中的數據來說明 dplyr 包的核心理念，并使用 ggplot2 來幫助我們理解數據。

1BiocManager::install('nycflights13')

2library(nycflights13)

3library(tidyverse)

3.1.2

nycflights13

為了介紹 dplyr 中的基本數據操作，我們需要使用?nycflights13::flights。這個數據框包含了 2013 年從紐約市出發的所有 336 776 次航班的信息。該數據來自于美國交通統計局，可以使用??flights?查看其說明文檔：

1>?flights

2#?A?tibble:?336,776?x?19

3????year?month???day?dep_time?sched_dep_time?dep_delay?arr_time?sched_arr_time?arr_delay

4???????????????????????????????????????????

5?1??2013?????1?????1??????517????????????515?????????2??????830????????????819????????11

6?2??2013?????1?????1??????533????????????529?????????4??????850????????????830????????20

7?3??2013?????1?????1??????542????????????540?????????2??????923????????????850????????33

8?4??2013?????1?????1??????544????????????545????????-1?????1004???????????1022???????-18

9?5??2013?????1?????1??????554????????????600????????-6??????812????????????837???????-25

10?6??2013?????1?????1??????554????????????558????????-4??????740????????????728????????12

11?7??2013?????1?????1??????555????????????600????????-5??????913????????????854????????19

12?8??2013?????1?????1??????557????????????600????????-3??????709????????????723???????-14

13?9??2013?????1?????1??????557????????????600????????-3??????838????????????846????????-8

1410??2013?????1?????1??????558????????????600????????-2??????753????????????745?????????8

15#?...?with?336,766?more?rows,?and?10?more?variables:?carrier?,?flight?,

16#???tailnum?,?origin?,?dest?,?air_time?,?distance?,?hour?,

17#???minute?,?time_hour?

這個數據框的輸出和我們以前用過的其他數據框有一點差別：只顯示了前幾行和適合屏幕寬度的幾列。（要想看到整個數據集，可以使用?View(flights)?在 RStudio查看器中打開數據集。）

列名下面有一行 3 個或 4 個字母的縮寫。它們描述了每個變量的類型。

??int?表示整數型變量。

??dbl?表示雙精度浮點數型變量，或稱實數。

??chr?表示字符向量，或稱字符串。

??dttm?表示日期時間（日期 + 時間）型變量。

還有另外 3 種常用的變量類型，雖然沒有在這個數據集中出現，但很快就會在本書后面遇到。?

??lgl?表示邏輯型變量，是一個僅包括?TRUE?和?FALSE?的向量。

??fctr?表示因子，R 用其來表示具有固定數目的值的分類變量。

??date?表示日期型變量。

3.1.3

dplyr?基礎

本章將學習 5 個?dplyr?核心函數。

? 按值篩選觀測（filter()）。

? 對行進行重新排序（arrange()?）。

? 按名稱選取變量（select()?）。

? 使用現有變量的函數創建新變量（mutate()?）。

? 將多個值總結為一個摘要統計量（summarize()）。

這些函數都可以和 group_by() 函數聯合起來使用，group_by()?函數可以改變以上每個函數的作用范圍，讓其從在整個數據集上操作變為在每個分組上分別操作。這 6 個函數構成了數據處理語言的基本操作。

3.2

使用filter()?篩選行

filter()?函數可以基于觀測的值篩選出一個觀測子集。第一個參數是數據框名稱，第二個參數以及隨后的參數是用來篩選數據框的表達式。例如，我們可以使用以下代碼篩選出 1月 1 日的所有航班：

1>?filter(flights,?month?==?1,?day?==?1)

2#?A?tibble:?842?x?19