這篇已經(jīng)授權(quán)人人都是產(chǎn)品經(jīng)理微信號(hào)+網(wǎng)站轉(zhuǎn)載了~轉(zhuǎn)載日期是2017-02-10
知乎:一個(gè)真實(shí)的網(wǎng)絡(luò)問答社區(qū),幫助你尋找答案,分享知識(shí)。
如今,知乎已經(jīng)不只是一個(gè)產(chǎn)品,而是一個(gè)品牌。而問答,是知乎最核心的功能。
2011年起,知乎的百度指數(shù)一路上升。
Alxea排名顯示,知乎已經(jīng)成為中國(guó)的第三十二大網(wǎng)站。而排列31名和33名的,分別是新華網(wǎng)和cctv。
雖然知乎后來推出了讀讀日?qǐng)?bào)/知乎日?qǐng)?bào)/知乎live/知乎專欄等內(nèi)容,但最核心的流程仍然是提問和回答。本文討論問答的流程。紅色框內(nèi)的流程將在下文詳細(xì)討論。
為了優(yōu)化問題下的回答質(zhì)量,我們能做什么?
? ? ? a.在單個(gè)問題下,將優(yōu)質(zhì)答案放置于更加明顯的位置。讓點(diǎn)進(jìn)問題的用戶第一眼就能看見優(yōu)質(zhì)回答。而將質(zhì)量一般的回答放置于底端較不明顯的位置。并且將不友善的問題折疊
? ? ? b.讓優(yōu)質(zhì)答案得到更多的曝光。包括得到點(diǎn)贊,推薦到知乎日?qǐng)?bào),官方微博,發(fā)現(xiàn)頁面等。
? ? ? c.促進(jìn)交流:讓問題發(fā)表后可以得到有質(zhì)量的評(píng)論。
? ? ?d.激發(fā)歸屬感和認(rèn)同感:這里有我喜歡的內(nèi)容/用戶,我希望能加入他們。
? ? ?e.設(shè)置收藏夾,專欄等,將更多的優(yōu)質(zhì)內(nèi)容沉淀下來。而不是隨著時(shí)間流逝,消失不見。
下面將從產(chǎn)品的角度分析所有提及的優(yōu)化點(diǎn)。
a.根據(jù)答案的優(yōu)劣程度排序,將游戲答案放置于最明顯的位置怎么實(shí)現(xiàn)?
要根據(jù)答案的優(yōu)劣程度排序答案,首先要定義什么是優(yōu)質(zhì)答案。
百度知道定義的“優(yōu)質(zhì)答案”來自于提問者的選擇。只要提問者選擇了一個(gè)自己心中的優(yōu)秀答案,問題就會(huì)被蓋棺定論。未被選擇的答案可能會(huì)被折疊。如果后人搜索到百度知道的問題,很可能只能看到提問者選擇的優(yōu)秀答案。當(dāng)然,提問者選擇的答案主觀性較強(qiáng),未必是最被認(rèn)可的答案。
而在知乎,回答好像是以問題為核心的開放性的“命題作文”。大家以問題為中心,各抒己見,更多的是百花爭(zhēng)鳴的觀點(diǎn)碰撞,而不是將某一個(gè)答案作為終極的標(biāo)準(zhǔn)。同時(shí),隨著知乎用戶量的大幅增加,單個(gè)問題下可能會(huì)產(chǎn)生成千上萬個(gè)回答。
當(dāng)單個(gè)問題下答案較多時(shí),根據(jù)回答質(zhì)量來排序答案順序?qū)⑹菢O為關(guān)鍵的。如果點(diǎn)進(jìn)問題后首先看到的是一些高質(zhì)量回答,將會(huì)極大提高信噪比,提升用戶感受。
這類(根據(jù)少量樣本判斷總體情況的問題),非常適合采用威爾遜算法。
舊算法可以簡(jiǎn)化為: 得分=加權(quán)贊同數(shù)-加權(quán)反對(duì)數(shù)(用戶在某個(gè)問題下的權(quán)重,是根據(jù)他過去在相關(guān)話題下的回答得到的贊同/反對(duì)/沒有幫助票數(shù)計(jì)算的。高權(quán)重的投票會(huì)對(duì)排序有更大的影響。知乎并不計(jì)算用戶的全局權(quán)重,而是分領(lǐng)域計(jì)算權(quán)重。)
舊算法有如下瓶頸:
1. 假如A答案有600加權(quán)贊同,400加權(quán)反對(duì),而B答案有90加權(quán)贊同,10加權(quán)反對(duì)。此時(shí)A答案的贊同率是60%,而B答案的贊同率是90%。B答案贊同率高,被大家認(rèn)同的概率較大。但是根據(jù)舊算法,A答案的得分高于B答案。 具體來說,抖機(jī)靈卻沒有幫助的答案,可能會(huì)得到大量贊同和大量反對(duì)。但是由于加權(quán)贊同數(shù)大于加權(quán)反對(duì)數(shù)量,仍然會(huì)排列在干貨滿滿但得贊較少的答案前面。
2.最先產(chǎn)生的答案如果質(zhì)量不錯(cuò)而獲得高票,那么新產(chǎn)生的質(zhì)量較高的答案,由于票數(shù)較少會(huì)被排列在最下面,難以得到瀏覽,從而很難得到點(diǎn)贊而名列前茅。
那么直接計(jì)算贊同率合適嗎?【得分=贊同數(shù)/(贊同數(shù)+反對(duì)數(shù))】當(dāng)投票量較大的時(shí)候,這樣做是合理的;當(dāng)投票量較小的時(shí)候,這樣就不合適了。假如A問題質(zhì)量較高,得到9900贊同100反對(duì),贊同率99%,而B問題質(zhì)量較差,只有1個(gè)贊同。將B答案放置在A答案之前顯然是不合理的。
如果算法能夠彌補(bǔ)投票量較小時(shí)候得到的贊同率不準(zhǔn)確這一缺點(diǎn)就好了。 1927年,美國(guó)數(shù)學(xué)家 Edwin Bidwell Wilson提出了一個(gè)修正公式,被稱為"威爾遜區(qū)間",很好地解決了小樣本的準(zhǔn)確性問題。(以下內(nèi)容涉及一部分?jǐn)?shù)理統(tǒng)計(jì)知識(shí))
用戶的答案有什么特點(diǎn)呢?
? ? ? ? ? 1.用戶只有贊同和反對(duì)兩個(gè)選項(xiàng)。(設(shè)贊同數(shù)=u,反對(duì)數(shù)=v,總票數(shù)n=u+v)
? ? ? ? ? 2.用戶之間投票行為獨(dú)立。
? ? ? ? ? 3.當(dāng)投票量增加的時(shí)候,樣本贊同率(u/n)逐漸趨近總體贊同率(n等于無窮大時(shí)候的u/n)。
很顯然,用戶的投票是二項(xiàng)分布。根據(jù)用戶投票,可知樣本贊同率和樣本贊同率的置信區(qū)間。 置信區(qū)間的寬窄,取決于樣本的數(shù)量。計(jì)算置信區(qū)間的方法有很多,(大學(xué)教材中計(jì)算置信區(qū)間的方法是”正態(tài)區(qū)間法“,但是這種方法不適用于小樣本的置信區(qū)間計(jì)算)。威爾遜算法能夠很好的計(jì)算小樣本情況下的準(zhǔn)確度。
(具體來說,900贊同,100反對(duì)的A回答,贊同率90%,有95%的把握可以斷定,贊同率在[89%,91%]之間。而9贊同,1反對(duì)的B回答,贊同率90%。有95%的把握可以斷定,贊同率在[85%,95%]之間。B回答的贊同率下界85%低于A回答贊同率的下界89%,所以B回答應(yīng)該放置在低于A回答的位置。)
知乎的算法步驟:
1.計(jì)算贊同率(總投票數(shù)可能較小,所以將實(shí)際贊同率看作樣本贊同率,通過樣本贊同率,估算可能的總體贊同率)
2.計(jì)算贊同率的置信區(qū)間下界,得到得分(計(jì)算公式如下圖)
3.根據(jù)得分排序(只需要在有用戶投票時(shí)候重新計(jì)算)
(如果在wiki查威爾遜區(qū)間,會(huì)發(fā)現(xiàn)下圖公式。知乎算法采用的是威爾遜區(qū)間的下界)
新算法有什么影響呢?
1.舊算法下,排名反應(yīng)的是加權(quán)贊同數(shù)和加權(quán)反對(duì)數(shù)的差。而新算法下,排名反應(yīng)的是經(jīng)過修正的贊同比。也就是說,一些贊同數(shù)遠(yuǎn)大于反對(duì)數(shù),但是贊同比較低的答案將會(huì)被放置在靠后的位置上。算法克制了爭(zhēng)議性較強(qiáng)的問題。類似的情況包括:
(1)抖機(jī)靈爆照但沒有幫助,煽動(dòng)性較強(qiáng)但沒幫助,大v用戶的低質(zhì)量回答,攻擊性回答(這些問題自帶很多贊同和很多反對(duì),贊同比較低)
(2)爭(zhēng)議性話題下的優(yōu)質(zhì)回答(話題天然爭(zhēng)議性較強(qiáng),明確表達(dá)自己觀點(diǎn)的回答自帶大量贊同和反對(duì),從而被放置在不明顯的位置。而較為中庸卻沒有輸出任何實(shí)際內(nèi)容的回答,卻被放置在了明顯位置。(對(duì)于百家爭(zhēng)鳴類型的討論,這樣到底合適嗎?)
(3)某種程度上鼓勵(lì)了“知乎政治正確”。一些符合知乎政治正確但是并不客觀的回答被置頂,而真正客觀理性的回答被放置在不明顯的位置。(之前寫快手分析報(bào)告的時(shí)候去知乎查資料,很希望看到一些客觀的討論,但發(fā)現(xiàn)傾向性非常強(qiáng)的答案放置在頂端,而較為客觀又干貨滿滿的回答被放置在底端)
2.普通用戶也許更愿意答題了。知乎的首頁timeline來自用戶關(guān)注的人。以前知乎大v出場(chǎng)自帶500贊(當(dāng)然可能也自帶500反對(duì))。而新算法按照贊同比排序。即使已經(jīng)有了幾千個(gè)回答,幾個(gè)贊同仍然能讓新的優(yōu)質(zhì)答案被放置在頂端。小透明也不怕被無視了。
3.專業(yè)領(lǐng)域下大v的作用更明顯了(新算法本就加強(qiáng)了用戶投票對(duì)排名的影響,擁有專業(yè)領(lǐng)域下投票加權(quán)的大v的投票可能更為關(guān)鍵。很可能大v點(diǎn)一次反對(duì),頂端的答案立馬下沉,底端的答案瞬間置頂)
總而總之,新算法是有利有弊的,但更多應(yīng)該是利大于弊。
其他采用威爾遜算法的網(wǎng)站還有:reddit,yelp,digg(我懷疑虎撲步行街評(píng)論,網(wǎng)易云音樂評(píng)論也是類似算法,但是沒有證據(jù)……)
? ? ?b.讓優(yōu)質(zhì)答案得到更多的曝光。包括得到點(diǎn)贊,推薦到知乎日?qǐng)?bào),官方微博,發(fā)現(xiàn)頁面等。
知乎首頁的timeline是用戶關(guān)注的人的動(dòng)態(tài)。如果你關(guān)注了一個(gè)人,就會(huì)看見這個(gè)人所有的動(dòng)態(tài)。這極大地增強(qiáng)了知乎的媒體屬性,讓話題得到快速的傳播(之前的童瑤,血友病吧,阿里巴巴月餅)并且回答詳情需點(diǎn)進(jìn)原文查看,而不是新浪微博的轉(zhuǎn)發(fā)。這極大地增強(qiáng)了答案的曝光率。
對(duì)于一部分優(yōu)質(zhì)內(nèi)容的生產(chǎn)者來說,被推薦到知乎日?qǐng)?bào)/官方微博等,是非常興奮非常爽的事情。得到認(rèn)可是很強(qiáng)大的激勵(lì)。是馬洛斯需求理論最頂端的一層。如果你認(rèn)真輸出過內(nèi)容,比方寫過公眾號(hào)/知乎回答/帖子。比方認(rèn)真更快手/美拍/B站,你就明白看見自己作品的點(diǎn)擊量與回復(fù)數(shù)量上升的快感。對(duì)于很多知乎用戶來說,這比金錢利益激勵(lì)更重要。
而對(duì)于另一部分生產(chǎn)者來說,他們?cè)谥跎匣ň敵鰞?nèi)容,營(yíng)造個(gè)人品牌,可以產(chǎn)生更多利益。比方說引流到自己的公眾號(hào)/pr宣傳/求職招聘/軟廣告等。任何平臺(tái)都有這樣的行為。(微博營(yíng)銷號(hào)/微信訂閱號(hào)廣告/B站UP主/直播主播/快手小廣告/今日頭條號(hào)/論壇版商等等等等)這樣的行為對(duì)于內(nèi)容生產(chǎn)者和平臺(tái)來說是雙贏。而對(duì)于平臺(tái)來說,要合理把控這樣的行為,找到平臺(tái),內(nèi)容生產(chǎn)者,用戶的平衡點(diǎn)。
? ? ? c.促進(jìn)交流:更好的營(yíng)造討論的氛圍,讓回答發(fā)表后可以得到有質(zhì)量的評(píng)論。
? ? ?d.激發(fā)歸屬感和認(rèn)同感:這里有我喜歡的內(nèi)容/用戶,我希望能加入他們
在知乎,一個(gè)問題可能對(duì)應(yīng)N條回答。特別是熱門話題,可能會(huì)看見幾千條回答。你可能會(huì)在知乎看見針對(duì)熱門事件的不同角度的分析。(阿里巴巴月餅、支付寶紅包、血友病事件等)。
知乎首頁呈現(xiàn)的信息是關(guān)注人的動(dòng)態(tài)。這極大地加強(qiáng)了知乎的媒體屬性,讓新鮮熱門的話題得到快速的傳播。如果大v點(diǎn)贊或者回答某個(gè)問題,所有粉絲都能看見(比方說輪子哥觀光團(tuán))。那么知乎和微博這樣媒體屬性極強(qiáng)的應(yīng)用有什么區(qū)別呢?
微博的媒體屬性極強(qiáng),轉(zhuǎn)發(fā)輕松便捷。信息可以飛速傳播,瞬間得到成百上千次轉(zhuǎn)發(fā)。但微博呈現(xiàn)出來的是單條內(nèi)容。信息碎片化極強(qiáng),信息多而無序。討論僅限于某條單獨(dú)的微博,而非整個(gè)事件。微博難以形成討論和知識(shí)沉淀的氛圍。信息會(huì)隨著時(shí)間而迅速的沉淀。(如果你在微博搜索某關(guān)鍵詞,會(huì)出現(xiàn)很多很多條信息,但是想要整理出較為完整的信息,想要看到不同種觀點(diǎn)和看法,這是比較困難的。在傳統(tǒng)bbs、微信公眾號(hào)也是這樣。即使是在bbs的精品區(qū),想要找到對(duì)于同一個(gè)問題的不同看法的帖子也較為麻煩。而找到自己喜歡的微信公眾號(hào)也并不容易,公眾號(hào)也更像是孤島。)
但是在知乎,搜索某個(gè)關(guān)鍵詞,看到的是若干個(gè)相關(guān)問題:一個(gè)問題下有N個(gè)回答。可能只需要看一個(gè)問題下的回答,就能找到自己需要的信息。問題和回答更多偏重于分享思路,而非實(shí)現(xiàn)細(xì)節(jié)(舉例:知乎上的問題是“怎樣的健身計(jì)劃是真正合理的?”,其他平臺(tái)上的問題可能是“我在做xx健身操,第三課第六屆第十八個(gè)動(dòng)作這樣做對(duì)嗎?”)問題的回答是開放性的,也沒有時(shí)間限制。新回答可能會(huì)源源不斷的產(chǎn)生。問題被提出后,關(guān)注問題的人可以不斷看到新產(chǎn)生的討論和回答,從而完整的了解問題全貌。通過點(diǎn)贊和反對(duì),回答將會(huì)被恰當(dāng)?shù)呐判颉V醯漠a(chǎn)品選型天生適合以問題為核心的討論。而優(yōu)質(zhì)的內(nèi)容,是對(duì)喜愛內(nèi)容的用戶的天然篩選。有了內(nèi)容,有了內(nèi)容的傳播機(jī)制(點(diǎn)贊,關(guān)注等)。自然能夠產(chǎn)生內(nèi)容與用戶之間的聯(lián)系,產(chǎn)生人和人之間的聯(lián)系。
ps.文章剛剛發(fā)出就被某人批評(píng),算法解釋的不夠?qū)I(yè)。。。
為了彌補(bǔ)錯(cuò)誤,決定在寫一篇文詳細(xì)解釋算法:威爾遜算法:知乎問答算法分析(續(xù))?
參考內(nèi)容:
認(rèn)真的人永遠(yuǎn)存在:關(guān)于知乎,這可能是最真誠(chéng)的一篇分享了 ? ? ? ? ?閆浩
我在知乎做運(yùn)營(yíng),一個(gè)知乎離職妹子的3年運(yùn)營(yíng)感悟 ? ? ? ? ? 拉勾網(wǎng)lagou
社區(qū)產(chǎn)品如何冷啟動(dòng),看看知乎早期是怎么做的 ? ? ? ? ? ? ? ? Shokunins
知乎產(chǎn)品體驗(yàn)分析 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?交槍不殺
基于用戶投票的排名算法(五):威爾遜區(qū)間 ? ? ? ? ? ? ? ? ? ? ? 阮一峰
How Not To Sort By Average Rating ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Evan Miller
知乎問題:如何評(píng)價(jià)知乎的回答排序算法?
知乎問題:知乎如何計(jì)算用戶在某個(gè)領(lǐng)域下的權(quán)重?
這次,我給知乎點(diǎn)32個(gè)贊同——淺析知乎新的回答排序算法 ? ? ? ?曾加