? ? ? ? ? ? ? ? ? ? ? ? ? ? ?寫在前面
? ?在上次觀看了比利.林恩的中場戰事之后,開始進入了豆瓣的電影世界,對于一個新用戶來說,特別喜歡豆瓣電影的影評,對于所看過的留下深刻印象的電影都在豆瓣上搜了一邊,同一部電影,希望能看到與自己感受不同的觀點,因為每一位觀眾都有著不一樣的人生軌跡,看待事物的角度可能會有所不同,正是這種差異往往能引發思考。豆瓣的電影數據方面一直以來都比較權威,對于每一位熱愛電影的觀眾來說都是很好的參考,受眾小而專,影評和評分都比較客觀。。吧!
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?關于數據
電影數據來源于豆瓣網站,已經爬完了所有的電影分類標簽,總共抓取到的電影記錄有34177條,其中沒有電影評分的記錄有6399條,這些都是經過去重和清理后的數據,清理指的是對于電視劇、真人秀、脫口秀等等的篩除,也就是說數據里僅僅包含電影。電影票房數據來源于電影票房數據庫網站,記錄不多,只有2577條,經過簡單地去離群點與豆瓣電影數據混合后只剩下2353條。電影數據中包含電影名字、導演、主演、所屬國家或者地區、電影類型、語言類型、評價人數、以及評分等等。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?分析目的
? ? 從不同的角度來觀測數據,查看各個參數之間的聯系,發現實際的有趣的問題,大體上進行分析。
? ? ? ? ? ? ? ? ? ? ? ? ?豆瓣的電影世界
一、從電影數量上觀測數據
1、各國發行的電影總數
? ? 從直方圖的顯示來看,美國發行的電影數量最多,是位居第二的中國大陸的兩倍還多,其次是日本、英國、香港、韓國…美國的電影數量在意料之中,美國經過漫長的電影發展史,到現在已經形成了龐大的專業“電影生產線”,韓國的電影數量有點出乎意料,只有1277部,當然這只是從所爬取的數據中觀測到的。
2、21世紀各年度發行的電影數量
? ? ?從進入21世紀之后各年度電影發行數量來看,大體上呈現出逐年增長的趨勢,2009-2011年這三年增長趨勢停滯,特別是2015年相對于2014年增幅最大。2015年之后每年電影發行數量突破兩千,每年可供觀眾選擇的電影也越來越多樣化了,希望質量也能隨數量越來越高呀!
3、21世紀每個年份各月發行的電影數量
? ? ?這是21世紀以來每年的各個月份電影發行量趨勢圖,有意思的是每年的9、10月份電影發行量最多,會達到一年中的峰值,難道是中秋國慶小長假的原因嗎?各月份之間的波動不大。。。
4、大陸與港臺地區電影數量隨時間的變化
80、90年代香港電影正巔峰,每年的電影發行量一直處于前列,最多的時候是93年的86部,但之后呈下降趨勢。大陸在2000年以前電影發行量都比較穩定,21世紀之后發展迅猛,16年電影發行量突破了400…臺灣地區整個趨勢都比較平和,11年之后有小波動。
二、從電影評分上觀測數據,反映電影質量
1、世界電影均值趨勢
?在這部分的分析開始時已經對沒有評分的電影進行了篩除,從數據的反映可以看出全世界的電影評分均值在1929年到2005年之間都比較穩定,基本維持在7.3-8.1之間。在05年之后出現了下滑,在08-10年之間下滑停滯,均值是7.0分,到之后直到2016年一直下滑到6.1分,基本上算及格,可見在這幾年隨著電影數量的上升,質量有所降低,是不是爛片有點多了呢?
2、中國與世界上其他所有國家和地區在電 ? ? ? ? 影評分均值上的對比
? 當然,中國包含了大陸和港澳臺地區,在改革開放后,中國的電影評分均值趨勢普遍低于世界上所有國家和地區(將世界上其他所有國家和地區看成是一個整體來對比),中國是實實在在拉了世界的后腿呀!特別是2010年之后,差距越拉越大,這得好好反思了。。。雖然說這幾年世界電影評分均值也在下滑,可是中國的下滑地也太快囖!
3、電影發行量前五的國家評分均值對比
?從圖中可以看出基本上評分均值最高的是英國,其次是日本、法國、和美國,最后是中國。特別是最近這幾年,中國有些反常,說實話,最近這幾年咱中國拍的爛片確實多了些。
4、大陸和港臺地區電影評分均值對比
?話說,臺灣地區的評分均值趨勢一直活躍于祖國的頂端啊!港臺地區一直都比較穩定。大陸在09年之前都是很不錯的,分布在6.5-8.1分之間,在1984年一度達到8.1分,09年之后蹭蹭地往下滑,曾經一度下滑到4.0,15年之后有所回升。
5、中國大陸的電影評分分布
從上圖的數據中可以反映出,在1966年-1978年之間幾乎沒有電影評分統計,在這段時間內大陸電影史上幾乎一片空白。在改革開放之后直到2011年,每年的評分中位數一直保持在6.0分以上。隨著近幾年電影的發展,大陸的電影發行量急劇增加,但是評分中位數逐年下降,從2010年的6.5分下降到2016年的4.7分,也就是說在2016年這一年內大陸地區所拍的電影評分有一半是在4.7分以下的,但是也有拍的比較好的電影,評分達到8.9分,評分最低達到2.1分。
三、從票房的角度進行分析
1、內地各年度票房統計
? ? ?從票房數據統計來看,在2013年之前票房增長是很有規律的,在2013年之后出現爆發式增長,2015年的票房是2013年的兩倍,達到445億左右。截至目前為止,2016年的票房是410億左右,2016年的票房數據還沒完全統計到,估計不會比2015年少。從另一個角度來看,隨著經濟的快速發展,人們的生活方式也在發生著變化,熱愛電影逐漸成為一種新的生活習慣,希望生活幸福指數越來越高哩。
2、豆瓣評分與票房均值之間的關系
?當然是評分越高,票房越高啊!所以說高質量電影不愁沒有票房。。。
四、評價人數排在前30的電影列表
? ? ?這些都是質量和人氣都非常高的電影,大部分我都看過了,最喜歡的是肖申克的救贖,泰坦尼克號,海上鋼琴師和楚門的世界,當年的小李子啊。。。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 題外話
1、爬取數據的工具
計算機語言:java
數據可視化工具:tableau(比較簡單易用)
2、自己也是一邊學一邊用,這只是一個小小的爬蟲,從編寫代碼,調試,抓取數據,數據清理和規范到分析,最大的感受就是無論做什么都要有所規劃,盡量預測可能發生的問題,在執行的過程中盡量避免問題,當然,就算遇上問題也不怕,因為辦法總是比困難多!
3、在爬取豆瓣數據的時候遇到的問題
(1)如果沒有登陸就抓取數據,會被豆瓣的服務器封了ip,不過第二天就會好了。
(2)登陸了之后,抓取數據過快的話會觸發豆瓣的反爬蟲機制,當前會話會被服務器拒絕,同時會讓你輸入驗證碼證明不是機器之后才能繼續訪問。
(3)針對于第二個問題我的解決方法是,在晚上10點之后爬取會好很多,服務器負載小,就算下載線程開到10,出現反爬蟲驗證碼也很少。當然這不是根本的解決之道,另外如果出現驗證碼的時候,讓所有的下載線程掛起,然后在控制臺上手動輸入驗證碼,讓程序繼續訪問。這不太方便了,各位有什么好的辦法嗎?
(4)對于票房數據的來源,是從電影票房數據庫網站爬取的。票房數據是用圖片生成,應該就是用來反爬蟲的吧,一開始嘗試著使用tess4j進行圖片識別,圖片很小,經過適當放大處理后整體識別率高了一些,但小數點后的識別往往會出偏差,效率也低,最終放棄了這個方法。
如果發現什么問題,歡迎提出來,在下感激不盡啦!
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?好好生活,好好成長!
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?VigoLin