一、前言
自處女作《爬取張佳瑋138w+知乎關注者:數據可視化》一文分布后,來簡書快一個月了。但一直不怎么熟悉這個平臺,因此,這回爬取簡書app里的推薦作者并進行簡單可視化,以增進對簡書的了解。
二、爬取簡書app
爬取簡書app的過程此文不做過多展開。大致過程如下:
用fiddler軟件抓包手機上的簡書app數據。找到API,看到返回的JSON數據,格式齊整:
把JSON數據復制到Chrome瀏覽器的JSON-handle插件里,方便查看格式和后續爬蟲里寫提取信息:(很少看到有人提到這個插件,也是蠻奇怪的)
寫好爬蟲代碼,爬取數據并存入CSV文件里,發現一共230名推薦作者。但由于部分數據亂碼,也是很奇怪,以前爬知乎和微博,也是找API從JSON里提取數據,并不會有一部分出現亂碼。無可奈何,只能對應的補救下。由于數據里不包含粉絲數等信息,需要再根據每個推薦作者的ID,到各自主頁爬取數據,整合后格式如下:
三、數據可視化
3.1 推薦作者
爬完數據后,開始檢驗成果,進行可視化,先將230名推薦作者“丟到”詞云里,直觀地看看都有哪些人:
但沒有以粉絲數為權重,所以看不出V大V小,于是再丟一遍:
可以看出推薦作者里粉絲數前十的大V有:簡黛玉、劉淼、彭小六、江昭和、簡書播客、簡叔、韓大爺的雜貨鋪、Sir電影、飽醉豚、冷眼觀史。此外發現“簡書”系的還有簡寶玉、簡書出版、簡書茶館BossYe、簡書活動精選、簡書牧心、簡書福利社社長簡東西、簡書大學堂.....
怎么可以這樣,安插這么多官方(大概都是官方的吧,未考證)的賬號,應該把更多位置給其他優秀作者嘛,比如有個非常有才華的作者,叫做@Deserts_X,他略施魔法就使Top 100的推薦作者們動了起來,并且順帶騙走了你8M的流量,這么厲害,還不關注一發:
當然一直看這些作者的昵稱其實還是不知道誰是誰,子曾經曰過:“無圖無真相”,那么把所有作者的頭像拼個圖來看看,發現人像比重非常大啊,看來想成為推薦作者,必須要把頭像換成帥氣的自己才行,不說了,要去換頭像了,不對,要去整容了,再見:
3.2 粉絲數之長尾效應
接著按照推薦作者各自的粉絲數降序排列,可見曲線情況非常類似著名的“長尾效應”。當然右側尾部并不是無限長的,也不算完全符合。
上圖可知,所有粉絲共計3975524人次,如果選取粉絲數排名前30的作者,可知其粉絲數已經接近總粉絲數的一半,馬太效應明顯(是這么用的嘛,有點怕誤人子弟)。
3.3 貢獻情況
看完了上面的圖,我們不禁發問,這些作者憑什么成為大V,成為推薦作者的呢。因此繼續看看他們發布的文章數和寫作的總字數情況:
文章數直接幾百上千,總字數更是百萬級別。百萬級別是個什么概念的,谷歌了下《論語》約1.6w字,《老子》約5k+字數。除一下,推薦作者高產似那啥,創作了大概好多好多部《論語》《老子》的內容,由此可見,名副其實,當之無愧的推薦作者呀。回頭看了下我的總字數,差不多也有一本《論語》加一本《老子》的字數了,23333。
繼續給上圖加上粉絲數(圓圈顏色)和獲贊數(圓圈大小):
可見雖然@Sir電影以一己之力將圖表大小擴大到了Plus款,但敵不過@彭小六才是當之無愧的“吸贊狂魔”啊,394篇文章,621858字數,219218贊數。就問你怕不怕。
按贊數降序可知,其他作者的排序如下,看來要好好研究下,怎么寫出“人見人愛,花見花開”的文章呢!不說了整容的路上好好看他們的文章。
3.4 簽約作者
再來看看推薦作者里簽約作者的比重。在230名推薦作者里,共有75人身兼簽約作者之頭銜,另外155人暫時無此頭銜。再把這75人丟到詞云里(重要的作者丟三遍):
愣著干嘛,頂禮膜拜,高呼“茍......”,有點暴力......
四、小結
沒有小結,只有寫文后的高興,和不知道有沒有人看的迷惑。評論里見。