文科生學Python系列17:泰坦尼克數(shù)據(jù)3(數(shù)據(jù)透視表)

第八課:案例分析 - 泰坦尼克數(shù)據(jù)

本節(jié)課將重點分析泰坦尼克號沉船事故,我們將探索是什么因素決定了最后是否生還。

我們將前面課程所學過的知識點融會貫通,舉一反三。

新增知識點:

? ? ? 缺失值處理:pandas中的fillna()方法

? ? ? 數(shù)據(jù)透視表:pandas中的pivot_table函數(shù)


3、分析哪些因素會決定生還概率

上節(jié)課列出來的因素包括艙位/性別/年齡,和它們的組合情況,對生還概率的影響。

我們的步驟是這樣的:

Step1 : 數(shù)值統(tǒng)計計算:分組運算 df.groupby( )

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 數(shù)據(jù)透視表 df.pivot_table( )

Step2 : 可視化圖表:seaborn.FacetGrid( ).map( ) 繪圖

Step3 :結(jié)論

艙位和性別是兩個分類變量,而年齡是數(shù)值變量,對于數(shù)值變量,將會使用Pandas的函數(shù),將這樣一個連續(xù)性的變量離散化,從而把它變成一個分類變量,以便進一步分析。


3-1 艙位與生還概率

計算每個艙位的生還概率

不同艙位生還概率(groupby)

用 Pclass進行分類,然后使用聚合函數(shù)mean 的方法,就得到不同艙位生還的概率。

通過這個統(tǒng)計可以得出,頭等艙的生還概率最大,有63%,生還率隨艙位的降低而遞減。同學們紛紛得出結(jié)論:我們一定要學好Python努力賺錢坐頭等艙啊!不要連小命都危險重重啊!

接下來我們看看今天學習的新知識點,用不同的方法得出同樣結(jié)果,替代掉groupby:

不同艙位生還概率(pivot_table)

參數(shù)values指定的是要計算的值,這里是生還情況 Survived。

index 指的是這張將要生成的表的索引結(jié)構(gòu),也表示使用 Pclass 艙位數(shù)據(jù)來進行分類 。

加上聚合函數(shù) aggfunc,這里使用 numpy 中的平均值 mean,來按照艙位數(shù)據(jù)進行分類,求 Survived 這一列的平均值。

兩種方法得到同樣的結(jié)果。這是得到的數(shù)據(jù),接下來要看的是,基于數(shù)據(jù)的基礎(chǔ),繪制可視化圖形,便于觀察分析。

繪制艙位和生還概率的條形圖

艙位和生還概率

我們使用的是barplot函數(shù),傳遞的數(shù)據(jù)是原始數(shù)據(jù),然后設(shè)置橫坐標和縱坐標。條形圖的橫坐標是1/2/3表示三個艙位,縱坐標是Survived這列的平均值,按照艙位進行分類之后的均值。

我們這里觀察可以發(fā)現(xiàn),seaborn非常適合做統(tǒng)計圖表,因為能直接顯示縱坐標的均值。圖中有三根豎線,其實y軸給的是Survived均值的點估計,豎線表示95%置信區(qū)間的范圍,也就是說,這個均值有可能95%的情況落在這個范圍中。要是我們不需要這個置信區(qū)間,也可以設(shè)置掉,用ci=None。

艙位和生還概率

其實這里我不是很明白“點估計”和“置信區(qū)間(音譯)”到底是什么,但是看起來好像沒有其他知識點重要,忽略掉吧。

結(jié)論:頭等艙的生還概率最大,其次是二等艙,三等艙的概率最小。


3-2 性別與生還概率

性別與生還概率(groupby)

首先我們用groupby將數(shù)據(jù)按性別分組,然后求得生還概率。

性別與生還概率(pivot_table)

values 代表要計算的列,是 Survived 這一列。按 Sex 性別進行分類,使得結(jié)果數(shù)據(jù)中的行索引是 Sex,然后使用 numpy 中的 mean 函數(shù)來求得均值。

兩種方法求得同樣的結(jié)果:男性生還率是18.9%,女性是74.2%。女性生還的概率遠遠高出男性的。

然后我們繪制圖表來顯示結(jié)果:

性別與生還概率(條形圖)

這就是圖表和數(shù)字的差距啊!!!可視化!什么叫可視化!!!一下就能看出來明顯的對比!

結(jié)論:女性幸存概率遠遠大于男性!


3-3 綜合考慮艙位和性別的因素,與生還概率的關(guān)系

首先計算不同艙位不同性別的人的生還概率,和上面一樣,有兩種方法。

不同艙位不同性別的人的生還概率(groupby)

groupby 這里有兩個變量,所以用列表的形式(也就是中括號),將變量傳遞給 groupby。同樣,為了計算生還概率,用 mean 的方法來求得每一組的生還概率。

我們看到輸出有兩個索引,一個是艙位,一個是性別。可以看到在頭等艙和二等艙的生還率中,女性的概率非常高,都超過了90%,三等艙的女性生還率只有50%,這個差距也是很大的。不管在哪個艙位來說,女性的生還概率還是遠高于男性的。

不同艙位不同性別的人的生還概率(pivot_table)1

這里的 values 還是 Survived。這里的 index 就有點不同了,因為這里是兩個因素,最后的結(jié)果是一個二重的索引,所以此處也要像上面一樣弄成一個列表,表示將兩個數(shù)據(jù)同時傳遞給 index,然后設(shè)置聚合的函數(shù)是 numpy 的均值。

這上面是 pivot_table 用二重索引的方法進行輸出,其實 pivot_table 還有另外一種方法可以顯示結(jié)果的:

不同艙位不同性別的人的生還概率(pivot_table)2

這里設(shè)置的 index 代表行索引是艙位。columns='Sex' 設(shè)置的是這個數(shù)據(jù)的列索引是性別,分為女性和男性。這里就體現(xiàn)了pivot_table 和 groupby 方法的差異了,pivot_table 表現(xiàn)得更靈活,它可以自由地設(shè)定表格的格式。

有了數(shù)據(jù),我們來繪制圖表。

艙位和生還概率,直方圖

這個圖是按照第一種情況下按不同生還概率繪制的直方圖。

下圖將展示用性別 Sex 進行分組的直方圖,用的是 hue 方法,得到的是同時考慮艙位和性別兩個數(shù)據(jù)的數(shù)據(jù)圖了。

同時考慮性別和艙位的生還概率,直方圖

在這個圖中就很明顯可以看出,不管在哪個艙位中,女性的生還率都遠遠大于男性。隨著艙位的下降,生還率也在降低。

除了直方圖,我們還可以繪制折線圖。設(shè)置的參數(shù)內(nèi)容和上面的直方圖barplot是一樣的。

同時考慮性別和艙位的生還概率,折線圖

這個繪圖函數(shù)自動幫我們進行了均值的計算,這個可以觀察此處的Y軸。

這兩個圖(直方圖,折線圖)表達的結(jié)果是一樣的,只是表現(xiàn)形式不一樣。

結(jié)論在各個艙位中,女性的生還概率都遠大于男性。一二等艙的女性生還率接近,且遠大于三等艙。一等艙的男性生還率大于二三等艙,二三等艙的男性生還率接近。


作業(yè)8-2:

分別使用 groupby 和 pivot_table, 計算在不同艙位中男女乘客的人數(shù)。(提示,使用count)



來來來,這次展示一下我做(抄)的作業(yè):

作業(yè)2

上面老師講了那么久生還概率,做作業(yè)的時候看到乘客,我就還是想生還的數(shù)據(jù),再想想審題不對啊,然后看 PassengerID,有點蒙圈。自己操作的最后一步是艙位和性別,沒有 Name,得出的結(jié)果只有兩個數(shù),一個是男性一個女性的數(shù)字,沒有艙位的分類。所以其實我自己的操作是錯誤的,上圖才是正確演示。

輸出沒有錯誤提醒的時候,我是輕易放過去的,到了方法二,就被卡住了。前面老師講了挺多次 values=‘Name’ 的意思,但是這里我不知道 values 要賦值什么呢?然后就不假思索去作業(yè)區(qū)偷看同學們的答案了:竟然是 Name!為什么我不知道還有這一列數(shù)據(jù)!?后面的 aggfunc='count' 竟然是要引號引起來的!這怎么是一個字符串呢,我的理解就是一個操作性的詞匯啊,有魔法的那種,因為前面的例子是 aggfunc=np.mean 啊,這里的 mean 是沒有引號的!

好吧,這節(jié)課特別長,加料全家桶。。。后面還有三小節(jié)的內(nèi)容,將會在一篇文章匯總,不然第八課一節(jié)課就5篇文章也太夸張了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內(nèi)容