豆瓣電影數據與票房數據分析

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?寫在前面

? ?在上次觀看了比利.林恩的中場戰事之后,開始進入了豆瓣的電影世界,對于一個新用戶來說,特別喜歡豆瓣電影的影評,對于所看過的留下深刻印象的電影都在豆瓣上搜了一邊,同一部電影,希望能看到與自己感受不同的觀點,因為每一位觀眾都有著不一樣的人生軌跡,看待事物的角度可能會有所不同,正是這種差異往往能引發思考。豆瓣的電影數據方面一直以來都比較權威,對于每一位熱愛電影的觀眾來說都是很好的參考,受眾小而專,影評和評分都比較客觀。。吧!

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?關于數據

電影數據來源于豆瓣網站,已經爬完了所有的電影分類標簽,總共抓取到的電影記錄有34177條,其中沒有電影評分的記錄有6399條,這些都是經過去重和清理后的數據,清理指的是對于電視劇、真人秀、脫口秀等等的篩除,也就是說數據里僅僅包含電影。電影票房數據來源于電影票房數據庫網站,記錄不多,只有2577條,經過簡單地去離群點與豆瓣電影數據混合后只剩下2353條。電影數據中包含電影名字、導演、主演、所屬國家或者地區、電影類型、語言類型、評價人數、以及評分等等。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?分析目的

? ? 從不同的角度來觀測數據,查看各個參數之間的聯系,發現實際的有趣的問題,大體上進行分析。

? ? ? ? ? ? ? ? ? ? ? ? ?豆瓣的電影世界

一、從電影數量上觀測數據

1、各國發行的電影總數

VigoLin

? ? 從直方圖的顯示來看,美國發行的電影數量最多,是位居第二的中國大陸的兩倍還多,其次是日本、英國、香港、韓國…美國的電影數量在意料之中,美國經過漫長的電影發展史,到現在已經形成了龐大的專業“電影生產線”,韓國的電影數量有點出乎意料,只有1277部,當然這只是從所爬取的數據中觀測到的。

2、21世紀各年度發行的電影數量

VigoLin

? ? ?從進入21世紀之后各年度電影發行數量來看,大體上呈現出逐年增長的趨勢,2009-2011年這三年增長趨勢停滯,特別是2015年相對于2014年增幅最大。2015年之后每年電影發行數量突破兩千,每年可供觀眾選擇的電影也越來越多樣化了,希望質量也能隨數量越來越高呀!

3、21世紀每個年份各月發行的電影數量

VigoLin

? ? ?這是21世紀以來每年的各個月份電影發行量趨勢圖,有意思的是每年的9、10月份電影發行量最多,會達到一年中的峰值,難道是中秋國慶小長假的原因嗎?各月份之間的波動不大。。。

4、大陸與港臺地區電影數量隨時間的變化

VigoLin

80、90年代香港電影正巔峰,每年的電影發行量一直處于前列,最多的時候是93年的86部,但之后呈下降趨勢。大陸在2000年以前電影發行量都比較穩定,21世紀之后發展迅猛,16年電影發行量突破了400…臺灣地區整個趨勢都比較平和,11年之后有小波動。

二、從電影評分上觀測數據,反映電影質量

1、世界電影均值趨勢

VigoLin

?在這部分的分析開始時已經對沒有評分的電影進行了篩除,從數據的反映可以看出全世界的電影評分均值在1929年到2005年之間都比較穩定,基本維持在7.3-8.1之間。在05年之后出現了下滑,在08-10年之間下滑停滯,均值是7.0分,到之后直到2016年一直下滑到6.1分,基本上算及格,可見在這幾年隨著電影數量的上升,質量有所降低,是不是爛片有點多了呢?

2、中國與世界上其他所有國家和地區在電 ? ? ? ? 影評分均值上的對比

VigoLin

? 當然,中國包含了大陸和港澳臺地區,在改革開放后,中國的電影評分均值趨勢普遍低于世界上所有國家和地區(將世界上其他所有國家和地區看成是一個整體來對比),中國是實實在在拉了世界的后腿呀!特別是2010年之后,差距越拉越大,這得好好反思了。。。雖然說這幾年世界電影評分均值也在下滑,可是中國的下滑地也太快囖!

3、電影發行量前五的國家評分均值對比

VigoLin

?從圖中可以看出基本上評分均值最高的是英國,其次是日本、法國、和美國,最后是中國。特別是最近這幾年,中國有些反常,說實話,最近這幾年咱中國拍的爛片確實多了些。

4、大陸和港臺地區電影評分均值對比

VigoLin

?話說,臺灣地區的評分均值趨勢一直活躍于祖國的頂端啊!港臺地區一直都比較穩定。大陸在09年之前都是很不錯的,分布在6.5-8.1分之間,在1984年一度達到8.1分,09年之后蹭蹭地往下滑,曾經一度下滑到4.0,15年之后有所回升。

5、中國大陸的電影評分分布

VigoLin

從上圖的數據中可以反映出,在1966年-1978年之間幾乎沒有電影評分統計,在這段時間內大陸電影史上幾乎一片空白。在改革開放之后直到2011年,每年的評分中位數一直保持在6.0分以上。隨著近幾年電影的發展,大陸的電影發行量急劇增加,但是評分中位數逐年下降,從2010年的6.5分下降到2016年的4.7分,也就是說在2016年這一年內大陸地區所拍的電影評分有一半是在4.7分以下的,但是也有拍的比較好的電影,評分達到8.9分,評分最低達到2.1分。

三、從票房的角度進行分析

1、內地各年度票房統計

VigoLin

? ? ?從票房數據統計來看,在2013年之前票房增長是很有規律的,在2013年之后出現爆發式增長,2015年的票房是2013年的兩倍,達到445億左右。截至目前為止,2016年的票房是410億左右,2016年的票房數據還沒完全統計到,估計不會比2015年少。從另一個角度來看,隨著經濟的快速發展,人們的生活方式也在發生著變化,熱愛電影逐漸成為一種新的生活習慣,希望生活幸福指數越來越高哩。

2、豆瓣評分與票房均值之間的關系

VigoLin

?當然是評分越高,票房越高啊!所以說高質量電影不愁沒有票房。。。

四、評價人數排在前30的電影列表

VigoLin

? ? ?這些都是質量和人氣都非常高的電影,大部分我都看過了,最喜歡的是肖申克的救贖,泰坦尼克號,海上鋼琴師和楚門的世界,當年的小李子啊。。。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 題外話

1、爬取數據的工具

計算機語言:java

數據可視化工具:tableau(比較簡單易用)

2、自己也是一邊學一邊用,這只是一個小小的爬蟲,從編寫代碼,調試,抓取數據,數據清理和規范到分析,最大的感受就是無論做什么都要有所規劃,盡量預測可能發生的問題,在執行的過程中盡量避免問題,當然,就算遇上問題也不怕,因為辦法總是比困難多!

3、在爬取豆瓣數據的時候遇到的問題

(1)如果沒有登陸就抓取數據,會被豆瓣的服務器封了ip,不過第二天就會好了。

(2)登陸了之后,抓取數據過快的話會觸發豆瓣的反爬蟲機制,當前會話會被服務器拒絕,同時會讓你輸入驗證碼證明不是機器之后才能繼續訪問。

(3)針對于第二個問題我的解決方法是,在晚上10點之后爬取會好很多,服務器負載小,就算下載線程開到10,出現反爬蟲驗證碼也很少。當然這不是根本的解決之道,另外如果出現驗證碼的時候,讓所有的下載線程掛起,然后在控制臺上手動輸入驗證碼,讓程序繼續訪問。這不太方便了,各位有什么好的辦法嗎?

(4)對于票房數據的來源,是從電影票房數據庫網站爬取的。票房數據是用圖片生成,應該就是用來反爬蟲的吧,一開始嘗試著使用tess4j進行圖片識別,圖片很小,經過適當放大處理后整體識別率高了一些,但小數點后的識別往往會出偏差,效率也低,最終放棄了這個方法。

如果發現什么問題,歡迎提出來,在下感激不盡啦!

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?好好生活,好好成長!

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?VigoLin

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,818評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,185評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,656評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,647評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,446評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,951評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,041評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,189評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,718評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,800評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,419評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,420評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,755評論 2 371

推薦閱讀更多精彩內容