第八課:案例分析 - 泰坦尼克數(shù)據(jù)
本節(jié)課將重點分析泰坦尼克號沉船事故,我們將探索是什么因素決定了最后是否生還。
我們將前面課程所學過的知識點融會貫通,舉一反三。
新增知識點:
? ? ? 缺失值處理:pandas中的fillna()方法? ? ? 數(shù)據(jù)透視表:pandas中的pivot_table函數(shù)
3、分析哪些因素會決定生還概率
上節(jié)課列出來的因素包括艙位/性別/年齡,和它們的組合情況,對生還概率的影響。
我們的步驟是這樣的:
Step1 : 數(shù)值統(tǒng)計計算:分組運算 df.groupby( )
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 數(shù)據(jù)透視表 df.pivot_table( )
Step2 : 可視化圖表:seaborn.FacetGrid( ).map( ) 繪圖
Step3 :結(jié)論
艙位和性別是兩個分類變量,而年齡是數(shù)值變量,對于數(shù)值變量,將會使用Pandas的函數(shù),將這樣一個連續(xù)性的變量離散化,從而把它變成一個分類變量,以便進一步分析。
3-1 艙位與生還概率
計算每個艙位的生還概率
用 Pclass進行分類,然后使用聚合函數(shù)mean 的方法,就得到不同艙位生還的概率。
通過這個統(tǒng)計可以得出,頭等艙的生還概率最大,有63%,生還率隨艙位的降低而遞減。同學們紛紛得出結(jié)論:我們一定要學好Python努力賺錢坐頭等艙啊!不要連小命都危險重重啊!
接下來我們看看今天學習的新知識點,用不同的方法得出同樣結(jié)果,替代掉groupby:
參數(shù)values指定的是要計算的值,這里是生還情況 Survived。
index 指的是這張將要生成的表的索引結(jié)構(gòu),也表示使用 Pclass 艙位數(shù)據(jù)來進行分類 。
加上聚合函數(shù) aggfunc,這里使用 numpy 中的平均值 mean,來按照艙位數(shù)據(jù)進行分類,求 Survived 這一列的平均值。
兩種方法得到同樣的結(jié)果。這是得到的數(shù)據(jù),接下來要看的是,基于數(shù)據(jù)的基礎(chǔ),繪制可視化圖形,便于觀察分析。
繪制艙位和生還概率的條形圖
我們使用的是barplot函數(shù),傳遞的數(shù)據(jù)是原始數(shù)據(jù),然后設(shè)置橫坐標和縱坐標。條形圖的橫坐標是1/2/3表示三個艙位,縱坐標是Survived這列的平均值,按照艙位進行分類之后的均值。
我們這里觀察可以發(fā)現(xiàn),seaborn非常適合做統(tǒng)計圖表,因為能直接顯示縱坐標的均值。圖中有三根豎線,其實y軸給的是Survived均值的點估計,豎線表示95%置信區(qū)間的范圍,也就是說,這個均值有可能95%的情況落在這個范圍中。要是我們不需要這個置信區(qū)間,也可以設(shè)置掉,用ci=None。
其實這里我不是很明白“點估計”和“置信區(qū)間(音譯)”到底是什么,但是看起來好像沒有其他知識點重要,忽略掉吧。
結(jié)論:頭等艙的生還概率最大,其次是二等艙,三等艙的概率最小。
3-2 性別與生還概率
首先我們用groupby將數(shù)據(jù)按性別分組,然后求得生還概率。
values 代表要計算的列,是 Survived 這一列。按 Sex 性別進行分類,使得結(jié)果數(shù)據(jù)中的行索引是 Sex,然后使用 numpy 中的 mean 函數(shù)來求得均值。
兩種方法求得同樣的結(jié)果:男性生還率是18.9%,女性是74.2%。女性生還的概率遠遠高出男性的。
然后我們繪制圖表來顯示結(jié)果:
這就是圖表和數(shù)字的差距啊!!!可視化!什么叫可視化!!!一下就能看出來明顯的對比!
3-3 綜合考慮艙位和性別的因素,與生還概率的關(guān)系
首先計算不同艙位不同性別的人的生還概率,和上面一樣,有兩種方法。
groupby 這里有兩個變量,所以用列表的形式(也就是中括號),將變量傳遞給 groupby。同樣,為了計算生還概率,用 mean 的方法來求得每一組的生還概率。
我們看到輸出有兩個索引,一個是艙位,一個是性別。可以看到在頭等艙和二等艙的生還率中,女性的概率非常高,都超過了90%,三等艙的女性生還率只有50%,這個差距也是很大的。不管在哪個艙位來說,女性的生還概率還是遠高于男性的。
這里的 values 還是 Survived。這里的 index 就有點不同了,因為這里是兩個因素,最后的結(jié)果是一個二重的索引,所以此處也要像上面一樣弄成一個列表,表示將兩個數(shù)據(jù)同時傳遞給 index,然后設(shè)置聚合的函數(shù)是 numpy 的均值。
這上面是 pivot_table 用二重索引的方法進行輸出,其實 pivot_table 還有另外一種方法可以顯示結(jié)果的:
這里設(shè)置的 index 代表行索引是艙位。columns='Sex' 設(shè)置的是這個數(shù)據(jù)的列索引是性別,分為女性和男性。這里就體現(xiàn)了pivot_table 和 groupby 方法的差異了,pivot_table 表現(xiàn)得更靈活,它可以自由地設(shè)定表格的格式。
有了數(shù)據(jù),我們來繪制圖表。
這個圖是按照第一種情況下按不同生還概率繪制的直方圖。
下圖將展示用性別 Sex 進行分組的直方圖,用的是 hue 方法,得到的是同時考慮艙位和性別兩個數(shù)據(jù)的數(shù)據(jù)圖了。
在這個圖中就很明顯可以看出,不管在哪個艙位中,女性的生還率都遠遠大于男性。隨著艙位的下降,生還率也在降低。
除了直方圖,我們還可以繪制折線圖。設(shè)置的參數(shù)內(nèi)容和上面的直方圖barplot是一樣的。
這個繪圖函數(shù)自動幫我們進行了均值的計算,這個可以觀察此處的Y軸。
這兩個圖(直方圖,折線圖)表達的結(jié)果是一樣的,只是表現(xiàn)形式不一樣。
結(jié)論:在各個艙位中,女性的生還概率都遠大于男性。一二等艙的女性生還率接近,且遠大于三等艙。一等艙的男性生還率大于二三等艙,二三等艙的男性生還率接近。
作業(yè)8-2:
分別使用 groupby 和 pivot_table, 計算在不同艙位中男女乘客的人數(shù)。(提示,使用count)
來來來,這次展示一下我做(抄)的作業(yè):
上面老師講了那么久生還概率,做作業(yè)的時候看到乘客,我就還是想生還的數(shù)據(jù),再想想審題不對啊,然后看 PassengerID,有點蒙圈。自己操作的最后一步是艙位和性別,沒有 Name,得出的結(jié)果只有兩個數(shù),一個是男性一個女性的數(shù)字,沒有艙位的分類。所以其實我自己的操作是錯誤的,上圖才是正確演示。
輸出沒有錯誤提醒的時候,我是輕易放過去的,到了方法二,就被卡住了。前面老師講了挺多次 values=‘Name’ 的意思,但是這里我不知道 values 要賦值什么呢?然后就不假思索去作業(yè)區(qū)偷看同學們的答案了:竟然是 Name!為什么我不知道還有這一列數(shù)據(jù)!?后面的 aggfunc='count' 竟然是要引號引起來的!這怎么是一個字符串呢,我的理解就是一個操作性的詞匯啊,有魔法的那種,因為前面的例子是 aggfunc=np.mean 啊,這里的 mean 是沒有引號的!
好吧,這節(jié)課特別長,加料全家桶。。。后面還有三小節(jié)的內(nèi)容,將會在一篇文章匯總,不然第八課一節(jié)課就5篇文章也太夸張了。