翻譯自 https://towardsdatascience.com/can-linear-models-predict-a-footballers-value-33d772211e5d
原標題:Can Linear Models predict a Footballer’s Value?
作者: Shubham Maurya
2018世界杯激戰正酣,我也決定將最近做的有趣項目分享出來,結合了我最愛的數據科學與足球!目標是研究下英超聯賽中球員的受歡迎程度與其身價的關聯(考慮到很多情況下球員的數據并不能代表一切,最典型的代表就是防守型后腰,數據不顯眼,但是對于球隊來說可能確是無價之寶),同時我也會偶爾跑個題,研究下英超六大豪門的一些有趣數據。
本文使用的數據主要來源于transfermrkt.com和Fantasy Premier League(以下簡稱FPL),FPL網站上有每只球隊的球員列表,并提供了較為一致的球員身價。例如曼聯年輕中場Scott McTominay在FPL就位列球員名單,但確被排除在transfermrkt數據庫之外,本文以2017/18賽季數據為準,可能因為后續簽約存在部分差異。
本文使用了一些很酷的技術,如RVest于Selenium,可以訪問我的github獲取源碼。
一些初步分析
誰是英超的最有價值球員
不出所料,都是些我們熟悉的大牌球星。
誰是英超最受歡迎的球員
魯尼小胖奪魁,在紅魔曼聯期間的高光表現無愧于傳奇兩字。
球員身價分布
情理之中,意料之外!身價顯然是非正態分布。一只球隊往往只有少量的明星球員,更多的則是中低身價球員。而如果我們取每只球隊一線隊身價前15名的球員來統計,則基本服從正態分布(提出了低身價的邊緣及年輕球員)。
六大豪門與普通球隊差距是否明顯?
有點意思!六大豪門的球員身價分布寬泛,而其他球隊則大量球員身價都在1000萬以下(transfermrkt網站的估值,莫噴)。
受歡迎度分布
受歡迎程度與身價的分布情況類似,除了兩個明顯的異常點——魯尼和博格巴。魯尼已經是當今英國足壇最為知名(受歡迎程度存疑?)的球星,他打破了博比查爾頓爵士的曼聯進球記錄,因其在曼聯一貫的優秀表現,獲得了非常高的關注度。博格巴,則是因為其以當時世界最高身價重返曼聯吸引了很高的熱度,當然他本身也是一名非常優秀的球員。
六大豪門vs其余球隊
與身價類似,六大豪門球員的熱門程度分布較為均勻。因為魯尼現在效力于埃弗頓,解釋了圖中的異常點。
詳細分析
顯然,我正在試圖證明球員的身價與其熱門程度存在關聯。這很有趣,因為能力和表現在足球運動中很難精準的量化出來,與球員踢的位置、教練的戰術、對手、所在聯賽、隊友的能力等等都息息相關。所以對球員進行評分是極其困難的一件事,當然還是有人樂此不疲:)
像WhoScored 之類的網站,提供兩兩球員間的比較,FPL網站則提供了球員的總體能力值。讓我們來看看球員的熱門程度能否可以解釋其能力,我會使用線性回歸模型來進行以下實驗。
FPL評分
從結果看FPL評分與transfermrkt身價數據非常一致,盡管FPL的評估顯然更受短期表現的影響,所以年齡因素沒有作為模型中的因素。來看看統計圖右下角的球員——低身價,能力值高,年齡大,比如切赫和亞亞圖雷。
目前來看我們的猜測基本正確,如果FPL能力值可作為轉會價格的等價物,使用轉會價格除以FPL能力值,應該會得到一個常數系數。但是實際上FPL值最低為4,所以就導致年輕球員及未得到足夠表現機會的球員的比率值很低,與此類似,另外一端,身價極低的老球員也會被低估,在賽季中仍然可能體現很高的價值。
非常有意思的是,可以看到前鋒從32歲開始比率斷崖式下降,可能體現了轉會市場對于高齡前鋒的低估值。
身價與年齡
直覺告訴我們,年紀越大,身價應該也就越低。但這只是一個初步的臆想。
高能力值的球員基本集中在24-32的年齡區間,在27歲附近達到巔峰水準。能力與年齡顯然不存在線性關系,所以在線性回歸中,我是將年齡分組來進行的。你也可以使用變換點回歸法——構建兩個模型,年齡大于小于閾值分別構建。
球隊各位置儲備
曼城有令人瘋狂的鋒線及攻擊性前腰,但他們的防守卻是一塌糊涂(希望門迪、沃克爾和丹尼洛的到來能有所改善,但他們不在這個數據集中) 。我們來看看六大豪門在各位置上的儲備如何?
曼城進攻球員的總身價遠超其他球隊。然而他們和利物浦的防守相對薄弱,當然曼城經過引援目前有所改善。曼聯門線上有德赫亞和羅梅羅的雙保險,稍稍領先。
熱門程度能否替代能力值?
下一部分,我們將對“能力與熱門程度存在關聯”的假設進行檢驗。球員能力很難通過比賽統計進行衡量與對比。在本文中,假設FPL的評分是球員能力的一個公允度量。
圖中可看到雖然可能并不非常完美,仍然可以清晰地看到能力與熱門程度間的存在線性關系。可以看到魯尼仍然是一個明顯的異常值。
好了,我們開始下面的模型!
回歸模型
我們的主要目的是為了來看看身價評估過程中,能否使用球員熱門程度來代替能力值。球員的身價我們姑且通過如下公式定義:
身價~能力+位置+年齡
注:身價為能力、位置、年齡確定的一個函數
后兩個決定因素很容易得到,但是能力是一個難以評估的因素。有很多的度量方式,這里我使用一個簡單的替代——熱門程度(過去一年中該球員維基百科的訪問量)。我使用維基百科的原因如下:
- 與Twitter/Facebook相比,不依賴于球員是否開通其個人賬號
- Facebook/Instagram 過于主觀,依賴于球員自身po的內容
- 容易獲取指定時間片數據——例如我想排除五月-七月的數據,因為正值轉會期,部分球員的熱門程度會有一定程度的高估。
不過簡單的使用訪問量也存在一些問題:
- 來自英格蘭本土的球員點擊量更高,因為他們本土作戰。
- 不同類型的球員獲得的關注度不同——例如鋒線球員獲得的關注度往往要遠遠高于防守球員
- 新簽約球員會獲得更高的關注度,有時候甚至比轉會期還要高
- 豪門往往有更多的國際球迷
- 突然爆發的球員可能獲得更多的點擊,因為他們之前的默默無聞。比如2016-17賽季的拉什福德。
- 長期受傷的球員因為其缺乏出場機會,點擊率會比較低。
在模型中,我考慮了1-4,忽略了5、6兩點,因為需要額外的工作去獲取突然爆發球員及受傷球員,后續模型可能會考慮進來。
針對影響因素1-4:
我對球員國籍進行了檢索,把他們分為了4組:
1:英格蘭本土球員
2:歐盟球員(英國退歐使得這成為一個顯然的分類)
3:美洲球員
4:其他國家球員
新增了一列——球員來自區域,該列有四個選項。
- 考慮了位置與訪問量的關聯
- 標記了16-17賽季的新引援,考慮了其對訪問量的影響
- 新增了一列——豪門標識,包含曼聯、曼城、切爾西、阿森納、利物浦和熱刺六支球隊,
除了這些,年齡也作為一個分類變量被包含其中。
數據處理
- 沒有包含升班馬,因為英超聯賽獲得的關注度高太多,這些球隊在前一賽季中沒有得到足夠曝光。
- 同樣原因,17-18賽季新的海外引援也沒有包含,但聯賽內部的轉會被保留了。比如林德洛夫就沒有包含,而盧卡庫則包含在內。
- 使用身價的開方值,因為身價有明顯的右偏,可能會導致異方差。
我們繪制市值開方與訪問量的散點圖如下:
不能很直觀的看到線性關系,于是我對訪問量也進行了開方操作:
粗略已經可以看出線性關系,又是魯尼那個異常點。
使用多元線性回歸模型,可以得到R方值高達70%!而且訪問量的系數非常顯著。市場開方與訪問量開方值間具有明顯的線性關系。
殘差圖告訴我們什么?
使用殘差圖,我們可以檢查數據是否存在異方差性。
殘差圖看起來誤差都是隨機的,使用
Q–Q plot
可以確認殘差是服從正態分布的。英超聯賽受歡迎程度
還有一個有趣的副產品——與其他聯賽相比,英超聯賽到底有多受歡迎?
因為從外國聯賽引援個數有限,此方法可能不夠精確,但是差異也足夠說明這絕不是噪聲引起的。
因為外部聯賽引援身價往往被低估,我們知道這個模型是有效的。原因在于——一個2000w身價的球員在英超聯賽的點擊量要比其他聯賽更多,而因為這個原因,在英超中每次點擊量的價值更小,模型使用英超聯賽的數據,系數也來源于英超,所以來自非熱門聯賽的球員的身價就會被低估。
Enjoy~
可以在kaggle上獲取數據與代碼。