最近聽了網(wǎng)易云課堂上的一些數(shù)據(jù)分析的課程,下面是一些課程的筆記,很多都是直接截圖放在上面了。
相關(guān)文章:數(shù)據(jù)分析的3個思路與8種方法
更多筆記在公眾號:Rockelbel的學(xué)習(xí)筆記(rockelbel_notes)
1、數(shù)據(jù)分析師的特點
①好奇:從數(shù)據(jù)中能夠獲取哪些信息,哪些想法
②謹(jǐn)慎:不急著公布結(jié)論,多維數(shù)據(jù)驗證
?? ?“沒有完美的數(shù)據(jù),沒有完美的方法”
③責(zé)任:個人、企業(yè)、社會
2、避免對數(shù)據(jù)可視化的誤解
“把圖做得復(fù)雜、更大數(shù)據(jù)、弄個大新聞,什么軟件可以做圖、找到別人沒有發(fā)現(xiàn)的秘密”
3、圖表的四大類
比較、分布、構(gòu)成、聯(lián)系
——《exel圖表之道》
使用圖表的目的不外乎這四種
4、數(shù)據(jù)工作流程
數(shù)據(jù)工作流程
5、數(shù)據(jù)可視化的方式
下列列出了一些圖表需求及對應(yīng)的工具,普通數(shù)據(jù)工作可能excel就能夠解決,不過如果向數(shù)據(jù)發(fā)展,還是應(yīng)該多接觸幾種工具的使用,至少每種類型的圖表要熟悉一種工具。
圖中列了很多可視化圖表的方式,不過我覺得吧,日常的工作報表excel足夠了,在此基礎(chǔ)上進一步做到自動化報表,可以考慮python+pandas/seaborn的組合,幾乎可以應(yīng)對所有的數(shù)據(jù)處理層面的問題。
圖表可視化
6、數(shù)據(jù)研究的套路
數(shù)據(jù)工作的套路
數(shù)據(jù)工作流是一個很虛但是非常重要非常重要非常重要的概念,厘清自家業(yè)務(wù)的數(shù)據(jù)流是很一件很重要的基礎(chǔ)工作
數(shù)據(jù)工作流
7、利用機器學(xué)習(xí)進行數(shù)據(jù)處理的一些介紹
常用python庫
缺失值處理
特征工程
特征選擇
訓(xùn)練流程
訓(xùn)練流程
評估方法:
????分類:準(zhǔn)確率、召回率、精確度
????回歸:均方差
評價方法-留出
評價方法-交叉驗證