今日頭條爬蟲策略

目標(biāo)：爬取今日頭條頭條號王者榮耀資訊和視頻。

爬蟲關(guān)鍵點(diǎn)：1.分析單頁面獲取所需要的內(nèi)容，2.找到文章列表頁翻頁規(guī)律，3.解析加密信息，獲取所需要的內(nèi)容

?????? （1）通過搜索接口獲取今日頭條王者榮耀資訊

最初策略是通過今日頭條首頁搜索框搜索關(guān)鍵字“今日頭條”，獲取搜索列表。經(jīng)過分析fillder 抓包可以得到今日頭條搜索接口是https://www.toutiao.com/search/?keyword= 最后接上關(guān)鍵字既可以搜索得到想要的內(nèi)容，但實(shí)際上獲取文章列表真正鏈接的請求是：

“https://www.toutiao.com/search_content/?offset=0&format=json&keyword=王者榮耀&autoload=true&count=20&cur_tab=1&from=search_tab&pd=synthesis“

去掉其他信息之后，最終獲取的有效的url是：

https://www.toutiao.com/search_content/?offset=0&format=json&keyword=王者榮耀&count=20

現(xiàn)在就很簡單了，可以看到offset是翻頁，format=json則表示是通過json格式生成傳遞數(shù)據(jù)，keyword則表示搜索的關(guān)鍵字，count 則表示一次傳輸獲取到的數(shù)據(jù)。

第二步就是文章列表中，每一個(gè)關(guān)鍵的json數(shù)據(jù)樣式，現(xiàn)在我們通過鏈接可以看到我們獲取到的數(shù)據(jù)央視是這樣的：

看起來很繁雜，仔細(xì)分析之后，可以看到，實(shí)際上是有規(guī)律可以遵循的，重點(diǎn)關(guān)注的是json格式數(shù)據(jù)里面的data的value值，里面是真正的文章信息列表。現(xiàn)在分析清楚之后，可以放下，再進(jìn)行單頁面的分析請求。

經(jīng)過分析可以得到，今日頭條單頁面url鏈接是：

?????? “https://www.toutiao.com/a6645464825897943555/“

很明顯，最后的那一串?dāng)?shù)字是關(guān)鍵，那么，這一串?dāng)?shù)字是從哪里獲取的呢，現(xiàn)在就要回頭看前面的請求列表了，我們拿著“6645464825897943555“這串?dāng)?shù)字,在前面的

文章列表進(jìn)行搜索，輕易的發(fā)現(xiàn)，展示這串?dāng)?shù)字的key值就是data里面的“group_id”雖然有點(diǎn)驚訝，但是最終還是拿到了。

現(xiàn)在我們通過搜索獲取文章列表，跳轉(zhuǎn)，和翻頁我們都找到了接口。下面的事情就簡單了，獲取單頁面數(shù)據(jù)。當(dāng)我點(diǎn)開網(wǎng)頁源代碼的時(shí)候，發(fā)現(xiàn)里面就有我想要的內(nèi)容。

最后通過xpath或者是正則就可以獲取一個(gè)單頁面文章所需要的內(nèi)容。

? ? ?這個(gè)頁碼有很多亂碼，經(jīng)過百度之后，發(fā)現(xiàn)其實(shí)這些亂碼其實(shí)就是前端頁面標(biāo)簽。經(jīng)過簡單的頁面轉(zhuǎn)義,就能保存為正常的前端頁面。

????????????? 然后是視頻信息，現(xiàn)在我能夠獲取視頻的video，但是怎么獲取視頻播放的原始url，是一個(gè)很頭疼的問題。這里的分析后面再說。

?????? 剩下的就是可以寫代碼了，寫好之后爬取，結(jié)果爬了一會(huì)就沒了，總共就爬了245條。因此，就需要轉(zhuǎn)方向，爬取頭條號資料。

（2）ip被封，反爬。

????????????? 可能是之前嘗試次數(shù)太多了,頭條將我的ip封掉。最后通過買了阿布云代理，配置好之后，又能夠順利爬取。

（3）爬取頭條號里面的文章和視頻內(nèi)容

進(jìn)入一個(gè)頭條號頁面：

?????? https://www.toutiao.com/c/user/60018788872/#mid=1566905732637697

這個(gè)url可以固定，重點(diǎn)是爬取里面的文章列表和詳情頁。

?????? 現(xiàn)在我們能獲取每一個(gè)單頁面文章或視頻的單頁面內(nèi)容，所以爬頭條號資訊的時(shí)候，只需要解決怎么拉取文章列表和翻頁就可以了。

?????? 首先是看源代碼，里面沒有任何我需要的文章內(nèi)容的信息，所以可以判斷是通過其他請求獲取到數(shù)據(jù)的。

經(jīng)過分析可以得知，獲取文章列表鏈接是：

?????? “https://www.toutiao.com/c/user/article/?page_type=1&user_id=%d&max_behot_time=%d&count=20&as=A185BCF242D2906&cp=5C22825930C6AE1&_signature=“

這些信息每一個(gè)都是必須的，user_id和max_behot_time 都是可以通過前面的文章列表獲取。最關(guān)鍵的點(diǎn)是as,cp,_signature這三個(gè)值是怎么獲取的，暫時(shí)沒有找到出處。

一開始，因?yàn)椴欢岸舜a，沒想過js會(huì)對這里產(chǎn)生影響，經(jīng)過搜索之后，決定采用模擬瀏覽器的方式進(jìn)行操作，即使用selenium庫進(jìn)行操作。通過模擬瀏覽器發(fā)送請求的方式，網(wǎng)頁源代碼經(jīng)過模擬瀏覽器渲染，可以獲取到標(biāo)準(zhǔn)的前端展示代碼頁面，也就可以直接獲取到，同時(shí)通過模擬瀏覽器下拉菜單操作方式，獲取更多的資訊。但是通過這個(gè)方式操作之后，發(fā)現(xiàn)有幾個(gè)弊端：

[if !supportLists]（1）?????[endif]下拉請求時(shí)經(jīng)常無法更新頁面，并不是每次請求必有回應(yīng)。

[if !supportLists]（2）?????[endif]需要獲取數(shù)據(jù)的時(shí)候，每次都是從第一頁開始拉取，翻頁就是下拉菜單，但是在這過程中我并不能保存頁面，所以無法做到實(shí)時(shí)存儲(chǔ)。

[if !supportLists]（3）?????[endif]爬取速度實(shí)在慢的可憐，其他我都忍了，20分鐘才獲取100多條數(shù)據(jù)，這種速度實(shí)在不能忍。

最后決定放棄這種方式，重新回到找url規(guī)律的問題上來。關(guān)鍵點(diǎn)就是as，cp，signature 這三個(gè)值怎么獲取。通過百度之后，可以知道as，cp這些值，我可以在js中找到對應(yīng)的函數(shù)。

即上圖這，可以清楚的看到，里面有一個(gè)固定的as，cp函數(shù)，最開始，我天然的以為as,cp和signature是有某種函數(shù)關(guān)系存在的，然后又經(jīng)過百度，可以找到那段函數(shù)。經(jīng)過百度搜索和查詢，最后找到簽名函數(shù)是js中的：

Function(function(e) {

??? return'e(e,a,r){(b[e]||(b[e]=t("x,y","x "+e+"y")(r,a)}a(e,a,r){(k[r]||(k[r]=t("x,y","newx[y]("+Array(r+1).join(",x[y]")(1)+")")(e,a)}r(e,a,r){n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t>>065:h=,y=,[y]=h66:u(e(t[b],,67:y=,d=,u((g=).x===c?r(g.y,y,k):g.apply(d,y68:u(e((g=t[b])<"<"?(b--,f):g+g,,70:u(!1)71:n72:+f73:u(parseInt(f,3675:if(){bcase74:g=<<16>>16g76:u(k[])77:y=,u([y])78:g=,u(a(v,x-=g+1,g79:g=,u(k["$"+g])81:h=,[f]=h82:u([f])83:h=,k[]=h84:!085:void086:u(v[x-1])88:h=,y=,h,y89:u({e{r(e.y,arguments,k)}e.y=f,e.x=c,e})90:null91:h93:h=0:;default:u((g<<16>>16)-16)}}n=this,t=n.Function,s=Object.keys||(e){a={},r=0;for(cin e)a[r]=c;a=r,a},b={},k={};r'.replace(/[--]/g, function(i) {

??????? return e[15 &i.charCodeAt(0)]

??? })

}("v[x++]=v[--x]t.charCodeAt(b++)-32function return

))++.substrvar .length(),b+=;break;case

;break}".split("")))()('gr$Daten Иb/s!l y?y?g,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff?kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘???2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb>>s!0s%yA0s"l"l!r&lengthb&l!l Bd>&+l!l &+l!l 6d>&+l!l&+ s,y=o!o!]/q"13o!l q"10o!],l 2d>&s.{s-yMo!o!]0q"13o!]*Ld>>b|s!o!l q"10o!],l!&s/yIo!o!].q"13o!],o!]*Jd>>b|&o!]+l &+s0l-l!&l-l!i\'1z141z4b/@d

上面這一坨，到這里，我就絕望了，這鬼才看得懂。

詢問領(lǐng)導(dǎo)之后，測試才發(fā)現(xiàn)，這個(gè)函數(shù)值跟as，cp沒有半毛錢關(guān)系，跟user_id,和max_hot_time 有關(guān)系。但是怎么運(yùn)行成了問題。

????????????? 在這個(gè)地方卡了一天半之后，求助領(lǐng)導(dǎo)，領(lǐng)導(dǎo)在發(fā)現(xiàn)完全一樣請求之后，依然解決不了問題。最后決定，將這部分代碼拷貝下來，然后通過node.js在本地調(diào)用運(yùn)行。最后獲得正確的signture值。

????????????? 至此，今日頭條最難處理的部分就解決了。

????????????? 在測試中還發(fā)現(xiàn)，在翻頁的時(shí)候（翻頁是使用json數(shù)據(jù)中，max_hot_time值進(jìn)行翻頁）,失敗率非常高，一個(gè)翻頁需要請求多次。最后成功拿到文章列表。

?????? 最后一個(gè)要解決的問題就是，怎么通過video_id獲取視頻原始鏈接。經(jīng)過百度，最終找到一個(gè)有效的解密方案（如果沒有這個(gè)，我這輩子就解不開。）。即：

1.打開http://toutiao.com/a6309254755004875010/，查看網(wǎng)頁源代碼獲取videoid = 0425d8f0c2bb425d9361c0eb2eeb4f16

2.拼接成如下字符串/video/urls/v/1/toutiao/mp4/{videoid}?r={randint}。其中

3. 將第二步拼接的字符串進(jìn)行crc32校驗(yàn)（php有crc32函數(shù)）,獲取值為十六進(jìn)制需轉(zhuǎn)化成十進(jìn)制crc32("/video/urls/v/1/toutiao/mp4/0425d8f0c2bb425d9361c0eb2eeb4f16?r=7937864853677161")= 4040162423

拼接Urlhttp://i.snssdk.com/video/urls/v/1/toutiao/mp4/{videoid}?r={randint}&s={checksum}

5. 訪問拼接Urlhttp://i.snssdk.com/video/urls/v/1/toutiao/mp4/0425d8f0c2bb425d9361c0eb2eeb4f16?r=2330415823304158&s=4218775840其中main_url為視頻地址（需要base64解碼）。

至此今日頭條所有內(nèi)容都可以爬取到了。?????

總結(jié)今日頭條反爬策略：

[if !supportLists]1.?????[endif]封ip，這是最常見的，最后買個(gè)代理，省事省心。

[if !supportLists]2.?????[endif]網(wǎng)頁文章鏈接（關(guān)鍵內(nèi)容），通過另外的url請求獲取，同時(shí)進(jìn)行加密處理（as,cp,signture）

[if !supportLists]3.?????[endif]對網(wǎng)頁js函數(shù)進(jìn)行了加密處理，鬼才看得懂

[if !supportLists]4.?????[endif]視頻通過videoid獲取網(wǎng)頁播放鏈接，經(jīng)過三次加密處理才能獲取最終url

[if !supportLists]5.?????[endif]翻頁請求高失敗率，顯著降低了爬蟲獲取信息的速度。

總結(jié)爬蟲策略：

[if !supportLists]1.?????[endif]首先找信息列表和下拉方式的url規(guī)律，分析獲取單頁面信息的規(guī)律，有了三個(gè)點(diǎn)，所有爬蟲都可以爬了

[if !supportLists]2.?????[endif]如果是大網(wǎng)站，多百度多github，網(wǎng)友可以提供非常多的好的思路。

[if !supportLists]3.?????[endif]讀懂前端代碼很重要。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,572評論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,071評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,409評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,569評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,360評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 54,895評論 1贊 321
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,979評論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,123評論 0贊 286
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,643評論 1贊 333
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,559評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,742評論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,250評論 5贊 356
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 43,981評論 3贊 346
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,363評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,622評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,354評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,707評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

今日頭條爬蟲策略

今日頭條爬蟲策略

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

今日頭條爬蟲策略

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频