線性模型玩轉英超

翻譯自 https://towardsdatascience.com/can-linear-models-predict-a-footballers-value-33d772211e5d
原標題:Can Linear Models predict a Footballer’s Value?
作者: Shubham Maurya

世界杯

2018世界杯激戰正酣,我也決定將最近做的有趣項目分享出來,結合了我最愛的數據科學與足球!目標是研究下英超聯賽中球員的受歡迎程度與其身價的關聯(考慮到很多情況下球員的數據并不能代表一切,最典型的代表就是防守型后腰,數據不顯眼,但是對于球隊來說可能確是無價之寶),同時我也會偶爾跑個題,研究下英超六大豪門的一些有趣數據。

本文使用的數據主要來源于transfermrkt.com和Fantasy Premier League(以下簡稱FPL),FPL網站上有每只球隊的球員列表,并提供了較為一致的球員身價。例如曼聯年輕中場Scott McTominay在FPL就位列球員名單,但確被排除在transfermrkt數據庫之外,本文以2017/18賽季數據為準,可能因為后續簽約存在部分差異。

本文使用了一些很酷的技術,如RVest于Selenium,可以訪問我的github獲取源碼。

一些初步分析

誰是英超的最有價值球員

最有價值球員

不出所料,都是些我們熟悉的大牌球星。

誰是英超最受歡迎的球員

最受歡迎球員

魯尼小胖奪魁,在紅魔曼聯期間的高光表現無愧于傳奇兩字。

球員身價分布

球員身價分布

情理之中,意料之外!身價顯然是非正態分布。一只球隊往往只有少量的明星球員,更多的則是中低身價球員。而如果我們取每只球隊一線隊身價前15名的球員來統計,則基本服從正態分布(提出了低身價的邊緣及年輕球員)。

六大豪門與普通球隊差距是否明顯?

左圖為6只豪門,右圖為其他球隊

有點意思!六大豪門的球員身價分布寬泛,而其他球隊則大量球員身價都在1000萬以下(transfermrkt網站的估值,莫噴)。

受歡迎度分布

頁面訪問量分布

受歡迎程度與身價的分布情況類似,除了兩個明顯的異常點——魯尼和博格巴。魯尼已經是當今英國足壇最為知名(受歡迎程度存疑?)的球星,他打破了博比查爾頓爵士的曼聯進球記錄,因其在曼聯一貫的優秀表現,獲得了非常高的關注度。博格巴,則是因為其以當時世界最高身價重返曼聯吸引了很高的熱度,當然他本身也是一名非常優秀的球員。

六大豪門vs其余球隊

左圖為6只豪門,右圖為其他球隊

與身價類似,六大豪門球員的熱門程度分布較為均勻。因為魯尼現在效力于埃弗頓,解釋了圖中的異常點。

詳細分析

顯然,我正在試圖證明球員的身價與其熱門程度存在關聯。這很有趣,因為能力和表現在足球運動中很難精準的量化出來,與球員踢的位置、教練的戰術、對手、所在聯賽、隊友的能力等等都息息相關。所以對球員進行評分是極其困難的一件事,當然還是有人樂此不疲:)
像WhoScored 之類的網站,提供兩兩球員間的比較,FPL網站則提供了球員的總體能力值。讓我們來看看球員的熱門程度能否可以解釋其能力,我會使用線性回歸模型來進行以下實驗。

FPL評分

FPL評分

從結果看FPL評分與transfermrkt身價數據非常一致,盡管FPL的評估顯然更受短期表現的影響,所以年齡因素沒有作為模型中的因素。來看看統計圖右下角的球員——低身價,能力值高,年齡大,比如切赫和亞亞圖雷。

身價/FPL比率

目前來看我們的猜測基本正確,如果FPL能力值可作為轉會價格的等價物,使用轉會價格除以FPL能力值,應該會得到一個常數系數。但是實際上FPL值最低為4,所以就導致年輕球員及未得到足夠表現機會的球員的比率值很低,與此類似,另外一端,身價極低的老球員也會被低估,在賽季中仍然可能體現很高的價值。
非常有意思的是,可以看到前鋒從32歲開始比率斷崖式下降,可能體現了轉會市場對于高齡前鋒的低估值。

身價與年齡

直覺告訴我們,年紀越大,身價應該也就越低。但這只是一個初步的臆想。


身價&年齡

高能力值的球員基本集中在24-32的年齡區間,在27歲附近達到巔峰水準。能力與年齡顯然不存在線性關系,所以在線性回歸中,我是將年齡分組來進行的。你也可以使用變換點回歸法——構建兩個模型,年齡大于小于閾值分別構建。

球隊各位置儲備

曼城有令人瘋狂的鋒線及攻擊性前腰,但他們的防守卻是一塌糊涂(希望門迪、沃克爾和丹尼洛的到來能有所改善,但他們不在這個數據集中) 。我們來看看六大豪門在各位置上的儲備如何?


位置儲備

曼城進攻球員的總身價遠超其他球隊。然而他們和利物浦的防守相對薄弱,當然曼城經過引援目前有所改善。曼聯門線上有德赫亞和羅梅羅的雙保險,稍稍領先。

熱門程度能否替代能力值?

下一部分,我們將對“能力與熱門程度存在關聯”的假設進行檢驗。球員能力很難通過比賽統計進行衡量與對比。在本文中,假設FPL的評分是球員能力的一個公允度量。


熱門程度=>能力值

圖中可看到雖然可能并不非常完美,仍然可以清晰地看到能力與熱門程度間的存在線性關系。可以看到魯尼仍然是一個明顯的異常值。
好了,我們開始下面的模型!

回歸模型

我們的主要目的是為了來看看身價評估過程中,能否使用球員熱門程度來代替能力值。球員的身價我們姑且通過如下公式定義:

身價~能力+位置+年齡
注:身價為能力、位置、年齡確定的一個函數

后兩個決定因素很容易得到,但是能力是一個難以評估的因素。有很多的度量方式,這里我使用一個簡單的替代——熱門程度(過去一年中該球員維基百科的訪問量)。我使用維基百科的原因如下:

  • 與Twitter/Facebook相比,不依賴于球員是否開通其個人賬號
  • Facebook/Instagram 過于主觀,依賴于球員自身po的內容
  • 容易獲取指定時間片數據——例如我想排除五月-七月的數據,因為正值轉會期,部分球員的熱門程度會有一定程度的高估。

不過簡單的使用訪問量也存在一些問題:

  • 來自英格蘭本土的球員點擊量更高,因為他們本土作戰。
  • 不同類型的球員獲得的關注度不同——例如鋒線球員獲得的關注度往往要遠遠高于防守球員
  • 新簽約球員會獲得更高的關注度,有時候甚至比轉會期還要高
  • 豪門往往有更多的國際球迷
  • 突然爆發的球員可能獲得更多的點擊,因為他們之前的默默無聞。比如2016-17賽季的拉什福德。
  • 長期受傷的球員因為其缺乏出場機會,點擊率會比較低。

在模型中,我考慮了1-4,忽略了5、6兩點,因為需要額外的工作去獲取突然爆發球員及受傷球員,后續模型可能會考慮進來。

針對影響因素1-4:
我對球員國籍進行了檢索,把他們分為了4組:
1:英格蘭本土球員
2:歐盟球員(英國退歐使得這成為一個顯然的分類)
3:美洲球員
4:其他國家球員
新增了一列——球員來自區域,該列有四個選項。

  1. 考慮了位置與訪問量的關聯
  2. 標記了16-17賽季的新引援,考慮了其對訪問量的影響
  3. 新增了一列——豪門標識,包含曼聯、曼城、切爾西、阿森納、利物浦和熱刺六支球隊,
    除了這些,年齡也作為一個分類變量被包含其中。

數據處理

  1. 沒有包含升班馬,因為英超聯賽獲得的關注度高太多,這些球隊在前一賽季中沒有得到足夠曝光。
  2. 同樣原因,17-18賽季新的海外引援也沒有包含,但聯賽內部的轉會被保留了。比如林德洛夫就沒有包含,而盧卡庫則包含在內。
  3. 使用身價的開方值,因為身價有明顯的右偏,可能會導致異方差。

我們繪制市值開方與訪問量的散點圖如下:


身價開方-訪問量散點圖

不能很直觀的看到線性關系,于是我對訪問量也進行了開方操作:


身價開方-訪問量開方散點圖

粗略已經可以看出線性關系,又是魯尼那個異常點。

使用多元線性回歸模型,可以得到R方值高達70%!而且訪問量的系數非常顯著。市場開方與訪問量開方值間具有明顯的線性關系。

殘差圖告訴我們什么?

使用殘差圖,我們可以檢查數據是否存在異方差性。

殘差圖

殘差圖看起來誤差都是隨機的,使用Q–Q plot可以確認殘差是服從正態分布的。
Q–Q plot

英超聯賽受歡迎程度

還有一個有趣的副產品——與其他聯賽相比,英超聯賽到底有多受歡迎?
因為從外國聯賽引援個數有限,此方法可能不夠精確,但是差異也足夠說明這絕不是噪聲引起的。


預測國外引援身價

因為外部聯賽引援身價往往被低估,我們知道這個模型是有效的。原因在于——一個2000w身價的球員在英超聯賽的點擊量要比其他聯賽更多,而因為這個原因,在英超中每次點擊量的價值更小,模型使用英超聯賽的數據,系數也來源于英超,所以來自非熱門聯賽的球員的身價就會被低估。

Enjoy~

可以在kaggle上獲取數據與代碼。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,071評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,409評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,569評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,360評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,895評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,123評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,643評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,559評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,742評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,981評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,363評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,622評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,354評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,707評論 2 370

推薦閱讀更多精彩內容