商業(yè)數(shù)據(jù)分析第三次課作業(yè)-0725

感謝 Dr.fish 的耐心講解和細(xì)致回答。

本次課的作業(yè)如下:

基于smoking_cancer.csv數(shù)據(jù),用描述統(tǒng)計量和統(tǒng)計圖表對其進(jìn)行分析。

備注:
STATE: 美國州名的簡寫
CIG: 人均吸煙的數(shù)量
BLAD: 每10萬人中死于膀胱癌( bladder cancer)的人數(shù)
LUNG: 每10萬人中死于肺癌(lung cancer)的人數(shù)
KID: 每10萬人中死于腎癌(kidney cancer)的人數(shù)
LEUK: 每10萬人中死于白血病(leukemia)的人數(shù)

這次生病了,本來還有些分析要做的,但是有點(diǎn)兒支持不住了,后面身體好了會補(bǔ)上。
不再貧了,直奔主題。


結(jié)論

  1. 全美平均吸煙量為25根,極差28.4,數(shù)據(jù)分散度較大;
  2. 四款癌癥發(fā)病數(shù)中,肺癌發(fā)病數(shù)遙遙領(lǐng)先,已超過全部癌癥的一半,其次為白血病
  3. 分別計算四款癌癥與吸煙的相關(guān)性發(fā)現(xiàn)相關(guān)從強(qiáng)到弱分別為:膀胱癌 - 肺癌 - 腎癌 - 白血病

以下為代碼部分

#導(dǎo)入分析包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from __future__ import division # 支持精確除法
from sklearn.cluster import KMeans # 聚類分析包

%matplotlib inline
%config InlineBackend.figure_format = 'retina' # 設(shè)置圖像清晰度
# 導(dǎo)入數(shù)據(jù)表并查看

df = pd.read_csv('smoking_cancer.csv')
df.head()
數(shù)據(jù)樣式
# 查看數(shù)據(jù)表整體情況

df.info()
查看數(shù)據(jù)表整體情況
# 查看基礎(chǔ)統(tǒng)計項

df.describe()
查看基礎(chǔ)統(tǒng)計項
# 全美平均吸煙量全距

cig_range = df['CIG'].max() - df['CIG'].min() #極差

print 'cig_range:',cig_range

# 輸出結(jié)果
cig_range: 28.4
# 全美癌癥發(fā)病數(shù)

bladder = df['BLAD'].sum()
lung = df['LUNG'].sum()
kidney = df['KID'].sum()
leukemia = df['LEUK'].sum()

print 'bladder:',bladder
print 'lung:',lung
print 'kidney:',kidney
print 'leukemia:',leukemia

# 輸出結(jié)果
bladder: 181.33
lung: 864.74
kidney: 122.96
leukemia: 300.51
# 四種癌癥占比

plt.figure(figsize = (5 , 7))
labels = [u'bladder',u'lung',u'kidney',u'leukemia']
sizes = [181.33, 864.74, 122.96, 300.51]
colors = ['#FFFFCC', '#CCFFFF', '#99CCCC', '#FFCCCC']

plt.pie(sizes, labels=labels, colors=colors, labeldistance = 1.1, autopct = '%1.1f%%', shadow = False, startangle = 90, pctdistance = 0.6)
#labeldistance,文本的位置離遠(yuǎn)點(diǎn)有多遠(yuǎn),1.1指1.1倍半徑的位置
#autopct,圓里面的文本格式,%1.1f%%表示小數(shù)有1位,整數(shù)有一位的浮點(diǎn)數(shù)
#shadow,餅是否有陰影
#startangle,起始角度,0,表示從0開始逆時針轉(zhuǎn),為第一塊。一般選擇從90度開始比較好看
#pctdistance,百分比的text離圓心的距離

plt.axis('equal')  # 調(diào)整坐標(biāo)軸的比例
plt.show()
四種癌癥占比

**備注 **

  1. 全美平均吸煙量為25根(一天一包煙,這個量可是真不小)
  2. 極差28.4,數(shù)據(jù)分散度較大
  3. 四項癌癥發(fā)病數(shù)中,肺癌發(fā)病數(shù)遙遙領(lǐng)先,已超過全部癌癥的一半,其次為白血病(是否有相關(guān)性待查)

綜上所述,需要查看下每個州人均吸煙量情況

# 每州人均吸煙量柱圖

state = df.STATE.value_counts()
state_name = list(state.index)
x = np.arange(len(state_name))
y = df.CIG

plt.figure(figsize=(20,4)) #設(shè)置chart長寬
plt.bar(x,y,color = '#00bfff',alpha=0.5) #生成條形圖,"color"設(shè)置柱子顏色,"alpha"設(shè)置柱子透明度
plt.xticks(x, state_name,rotation=30) #設(shè)置X軸標(biāo)簽,rotation 旋轉(zhuǎn)橫坐標(biāo)標(biāo)簽

plt.xlabel('state name') #設(shè)置X軸名稱
plt.ylabel('CIG') #設(shè)置Y軸名稱
plt.title('CIG OF STATE') #設(shè)置chart標(biāo)題
plt.legend(['CIG'],loc = 'upper right',fontsize = 10) #添加圖示,fontsize 字號大小

#添加數(shù)據(jù)標(biāo)簽
#a,b+0.5 在每一柱子對應(yīng)x值、y值上方0.5處標(biāo)注文字說明
#'%.0f' % b 標(biāo)注的文字(每個柱子對應(yīng)的y值)
#ha='center',va= 'bottom' horizontalalignment(水平對齊)、verticalalignment(垂直對齊)
for a,b in zip(x,y):
    plt.text(a, b + 0.5, '%.0f' % b, ha='center', va= 'bottom',fontsize=10)

plt.show()
每州人均吸煙量柱圖
# 每州總癌癥發(fā)病數(shù)柱圖

bladder_c = df.groupby('STATE').BLAD.sum() #計算各州 hillary 支持票數(shù)
lung_c = df.groupby('STATE').LUNG.sum() #計算各州 trump 支持票數(shù)
kidney_c = df.groupby('STATE').KID.sum()
leukemia_c =df.groupby('STATE').LEUK.sum()

states = list(bladder_c.index) #獲取各州名稱
x = np.arange(len(states))  #返回array類型對象
y = bladder_c #指定 hillary 的Y坐標(biāo)
y1 = lung_c #指定 trump 的Y坐標(biāo)
y2 = kidney_c
y3 = leukemia_c

plt.figure(figsize=(20,4)) #設(shè)置chart長寬
plt.bar(x,y,width = 0.8,align = 'center',color = '#FFFFCC') #生成條形圖,"color='g'"設(shè)置柱子顏色,"alpha=0.5"設(shè)置柱子透明度
plt.bar(x,y1,width = 0.8,align = 'center',color = '#CCFFFF',bottom = y)
plt.bar(x,y2,width = 0.8,align = 'center',color = '#99CCCC',bottom = y)
plt.bar(x,y3,width = 0.8,align = 'center',color = '#FFCCCC',bottom = y)
plt.xticks(x, states,rotation=30) #設(shè)置X軸標(biāo)簽,rotation 旋轉(zhuǎn)橫坐標(biāo)標(biāo)簽

plt.xlabel('states name') #設(shè)置X軸名稱
plt.ylabel('ticket') #設(shè)置Y軸名稱
plt.title('APPROVAL RATINGS') #設(shè)置chart標(biāo)題
plt.legend(['bladder','lung','kidney','leukemia'],loc = 'upper right',fontsize = 10) #添加圖示,fontsize 字號大小

#添加數(shù)據(jù)標(biāo)簽
#a,b+0.8 在每一柱子對應(yīng)x值、y值上方0.5處標(biāo)注文字說明
#'%.0f' % b 標(biāo)注的文字(每個柱子對應(yīng)的y值)
#ha='center',va= 'bottom' horizontalalignment(水平對齊)、verticalalignment(垂直對齊)
for a,b in zip(x,y):
    plt.text(a, b - 3, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

for a,b in zip(x,y1):
    plt.text(a, b + 0.8, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

for a,b in zip(x,y2):
    plt.text(a, b + 1, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

for a,b in zip(x,y3):
    plt.text(a, b + 0.8, '%.0f' % b, ha = 'center', va = 'bottom',fontsize = 10)

plt.show()
每州癌癥爆發(fā)柱圖

以下依據(jù)癌癥爆發(fā)人次進(jìn)行分析相關(guān)性

# 平均吸煙量與癌癥相關(guān)性 - lung

plt.scatter(df.CIG, df.LEUK, c = '#6666FF') 
plt.show()

np.corrcoef(df.CIG, df.LUNG)[0,1] # 計算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) : 0.6974025049275292
吸煙與肺癌發(fā)病散點(diǎn)圖
# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "LUNG",data = df[['CIG','LUNG']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性
# 平均吸煙量與癌癥相關(guān)性 - leukemia

plt.scatter(df.CIG, df.LEUK, c = '#FF6666') 
plt.show()

np.corrcoef(df.CIG, df.LEUK)[0,1] # 計算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) : -0.068481229476638969
吸煙與白血病發(fā)病散點(diǎn)圖
# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "LEUK",data = df[['CIG','LEUK']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性
# 平均吸煙量與癌癥相關(guān)性 - bladder

plt.scatter(df.CIG, df.BLAD, c = '#FFFF66')
plt.show()

np.corrcoef(df.CIG, df.BLAD)[0,1]  # 計算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) : 0.70362185946144185
吸煙與膀胱癌發(fā)病散點(diǎn)圖

# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "BLAD",data = df[['CIG','BLAD']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性
# 平均吸煙量與癌癥相關(guān)性 - kidney

plt.scatter(df.CIG, df.KID, c = '#336699')
plt.show()


np.corrcoef(df.CIG, df.KID)[0,1]  # 計算相關(guān)系數(shù)

# 輸出結(jié)果
相關(guān)系數(shù) :0.48738961703356476
吸煙與腎癌發(fā)病散點(diǎn)圖

# 加線性回歸方法(95%置信區(qū)間)

sns.lmplot(x = "CIG", y = "KID",data = df[['CIG','KID']], order = 1, ci = 95, size=4, aspect=1)
plt.show()
線性回歸驗(yàn)證相關(guān)性

后記

    就在寫這篇作業(yè)的時候,小白也在與病魔進(jìn)行斗爭(生扛那種),深刻的體會到了擁有一個好身體的重要性。其實(shí)這篇作業(yè)寫得還是蠻壓抑的,隨著cancer的全球性爆發(fā),我們究竟如何才能躲過它走向生命的盡頭,真的很值得我們思考(再想想帝都的霧霾…OMG,小白好像病的更厲害了些)。

    雖然沒有證據(jù)證明肺癌是由吸煙引起的,但是依據(jù)數(shù)據(jù)可以明顯看到它們的強(qiáng)相關(guān)性。以及讓小白差異的膀胱癌?!居然相關(guān)性比肺癌還高。當(dāng)然,這只是一份全美的數(shù)據(jù)表,給出的數(shù)據(jù)規(guī)模也并不能完全支持“吸煙更容易引起膀胱癌”這樣的結(jié)論,另外也沒有將其他疾病數(shù)據(jù)引入進(jìn)來。但即便是這樣,我們還是可以發(fā)現(xiàn)樣本數(shù)據(jù)中吸煙就是會和某些癌癥表現(xiàn)出異常的相關(guān)性來,這樣的結(jié)果多少值得我們重視一下。

   所以,愛惜生命,從戒煙開始。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,401評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,011評論 3 413
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,263評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,543評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,323評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,874評論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,968評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,095評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,605評論 1 331
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,551評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,720評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,242評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,961評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,358評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,612評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,330評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,690評論 2 370

推薦閱讀更多精彩內(nèi)容

  • 非常優(yōu)秀的研究總結(jié),值得學(xué)習(xí)領(lǐng)會和思考。因?yàn)樽謹(jǐn)?shù)太多,可以去作者的博文地址http://www.huangshuj...
    王詩翔閱讀 4,201評論 1 24
  • 曾經(jīng)是那么的向往大學(xué)生活現(xiàn)在卻有點(diǎn)害怕了!還沒有開學(xué)呢,開學(xué)就是大一了,我的電子信息工程專業(yè),每天面對的都是物理和...
    healer修夏閱讀 200評論 0 0
  • 有時候覺得國外的一些節(jié)日很意義,譬如感恩節(jié)。 有了這個節(jié)日,使得人們會在這一天滿懷感恩的心情,停下忙碌的腳步,想想...
    我來自遠(yuǎn)方閱讀 399評論 1 1
  • 最美麗的情話, 莫過于, 三行情書。 作詞:阿信 作曲:阿信 演唱:阿信 沒錯啦,就是五月天阿信?, 把全宇宙的情...
    想太多小姐r閱讀 1,128評論 0 2
  • *我早在中午就感覺有些不舒服了,也許是被我朋友給滲透了!他就因?yàn)閬y泊車被罰款50塊錢,就一直抱怨。 *我那時候就聽...
    午夜里的街燈閱讀 170評論 0 1