PageRank算法原理剖析及Spark實現(xiàn)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?PageRank算法原理剖析及Spark實現(xiàn)

姓名：余玥 ? ? 學(xué)號：16010188033

轉(zhuǎn)載自http://blog.csdn.net/ZCF1002797280/article/details/50254069，有刪節(jié)。

【嵌牛導(dǎo)讀】：PageRank，網(wǎng)頁排名，又稱網(wǎng)頁級別、Google左側(cè)排名或佩奇排名，是一種由根據(jù)網(wǎng)頁之間相互的超鏈接計算的技術(shù)，而作為網(wǎng)頁排名的要素之一，以Google公司創(chuàng)辦人拉里·佩奇（Larry Page）之姓來命名。

????????Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性，在搜索引擎優(yōu)化操作中是經(jīng)常被用來評估網(wǎng)頁優(yōu)化的成效因素之一。PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票，Google根據(jù)投票來源（甚至來源的來源，即鏈接到A頁面的頁面）和投票目標(biāo)的等級來決定新的等級。簡單的說，一個高等級的頁面可以使其他低等級頁面的等級提升。

【嵌牛鼻子】：spark/算法/PageRank/谷歌

【嵌牛提問】：什么是PageRank？PageRank算法的原理是什么？如何進行Spark實現(xiàn)？

【嵌牛正文】：

1.什么是PageRank

PageRank對網(wǎng)頁排名的算法，曾是Google發(fā)家致富的法寶。PageRank算法計算每一個網(wǎng)頁的PageRank值，然后根據(jù)這個值的大小對網(wǎng)頁的重要性進行排序。

2.簡單PageRank算法

首先，將Web做如下抽象：

(1)將每個網(wǎng)頁抽象成一個節(jié)點；

(2)如果一個頁面A有鏈接直接鏈向B，則存在一條有向邊從A到B（多個相同鏈接不重復(fù)計算邊）。

因此，整個Web被抽象為一張有向圖。現(xiàn)在假設(shè)世界上只有四張網(wǎng)頁：A、B、C、D，其抽象結(jié)構(gòu)如下圖：

顯然這個圖是強連通的（從任一節(jié)點出發(fā)都可以到達另外任何一個節(jié)點）。然后需要用一種合適的數(shù)據(jù)結(jié)構(gòu)表示頁面間的連接關(guān)系。

PageRank算法基本思想描述：被用戶訪問越多的網(wǎng)頁更可能質(zhì)量越高，而用戶在瀏覽網(wǎng)頁時主要通過超鏈接進行頁面跳轉(zhuǎn)，因此需要通過分析超鏈接組成的拓撲結(jié)構(gòu)來推算每個網(wǎng)頁被訪問頻率的高低。最簡單的，我們可以假設(shè)當(dāng)一個用戶停留在某頁面時，跳轉(zhuǎn)到頁面上每個被鏈頁面的概率相同。

例如，上圖中A頁面鏈向B、C、D，所以一個用戶從A跳轉(zhuǎn)到B、C、D的概率各為1/3。設(shè)一共有N個網(wǎng)頁，則可以組織這樣一個N維矩陣，其中第i行j列的值表示用戶從頁面j轉(zhuǎn)到頁面i的概率。這樣一個矩陣叫做轉(zhuǎn)移矩陣（Transition Matrix）。下面是上圖的轉(zhuǎn)移矩陣M:

設(shè)初始時每個頁面的rank值為1/N，這里就是1/4。按A?D順序得到向量v：

注意：M第一行分別是A、B、C和D轉(zhuǎn)移到頁面A的概率，而v的第一列分別是A、B、C和D當(dāng)前的rank，因此用M的第一行乘以v的第一列，所得結(jié)果就是頁面A最新rank的合理估計，同理，Mv的結(jié)果就分別代表A、B、C、D新rank值。

然后用M再乘以這個新的rank向量，又會產(chǎn)生一個rank向量。迭代這個過程，可以證明v最終會收斂，即v≈Mv，此時計算停止。最終的v就是各個頁面的pagerank值。上面的向量經(jīng)過幾步迭代后，大約收斂在（1/4,1/4,1/5,1/4），這就是A、B、C、D最后的pagerank。

3.終止點問題

上面過程要滿足收斂性，需要具備一個條件：圖是強連通的，即從任意網(wǎng)頁可以到達其他任意網(wǎng)頁。

互聯(lián)網(wǎng)中存在網(wǎng)頁不滿足強連通的特性，因為有一些網(wǎng)頁不指向任何網(wǎng)頁，按照上面公式迭代計算下去，導(dǎo)致前面累計得到的轉(zhuǎn)移概率被清零，最終得到的概率分布向量所有元素幾乎都為0。

假設(shè)把上面圖中C到D的鏈接丟掉，C變成了一個終止點，得到下面這個圖：

轉(zhuǎn)移矩陣M為：

不斷迭代，最終得到所有元素都為0。

4. 陷阱問題

陷阱問題：是指有些網(wǎng)頁不存在指向其他網(wǎng)頁的鏈接，但存在指向自己的鏈接。比如下面這個圖：

這種情況下，PageRank算法不斷迭代會導(dǎo)致概率分布值全部轉(zhuǎn)移到c網(wǎng)頁上，這使得其他網(wǎng)頁的概率分布值為0，從而整個網(wǎng)頁排名就失去了意義。如果按照上面圖則對應(yīng)的轉(zhuǎn)移矩陣M為：

不斷迭代，最終得到如下結(jié)果：

5. 完整PageRank算法

為了解決終止點問題和陷阱問題，下面需要對算法進行改進。假設(shè)選取下一個跳轉(zhuǎn)頁面時，既不選當(dāng)前頁面，也不選當(dāng)前網(wǎng)頁上的其他鏈接，而是以一定概率跳轉(zhuǎn)到其他不相關(guān)網(wǎng)頁，那么上面兩個問題就能得到很好的解決，這就是完整PageRank算法思想。

假設(shè)跳轉(zhuǎn)到當(dāng)前頁面（包括當(dāng)前頁面上的鏈接）的概率為a（也稱為基尼系數(shù)），那么跳轉(zhuǎn)到其他頁面概率為(1?a)，進一步假設(shè)每個頁面被訪問的概率相同都是1/n，于是原來的迭代公式轉(zhuǎn)化為：

假設(shè)α的值為0.85，e是網(wǎng)頁數(shù)目的倒數(shù)，共4個網(wǎng)頁，所以e等于1/4。現(xiàn)在計算有陷阱的網(wǎng)頁的概率分布：

利用上面公式繼續(xù)迭代下去，直到收斂，得到最終rank值。

6. Spark實現(xiàn)RageRank

這里簡化初始值為1.0，α/N設(shè)置為0.15，迭代次數(shù)參考《數(shù)學(xué)之美》中提到：“一般來講，只要10次左右的迭代基本上就收斂了”，這里設(shè)置為10次。

【完】

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,345評論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,494評論 3贊 416
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,283評論 0贊 374
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,953評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 71,714評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,186評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,255評論 3贊 441
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,410評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,940評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 40,776評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,976評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,518評論 5贊 359
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,210評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,642評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,878評論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,654評論 3贊 391
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 47,958評論 2贊 373

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

PageRank算法原理剖析及Spark實現(xiàn)

PageRank算法原理剖析及Spark實現(xiàn)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

PageRank算法原理剖析及Spark實現(xiàn)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频