隨著數據量越來越大,依賴于數據決策的場景越來越多,使用工具對于數據進行分析,越來越成為一個職場人必備的一項技能。那么如果要更自如的進行數據分析,就必須掌握幾個數據分析常用的工具。俗話說的好:工欲善其事必先利其器。那么數據分析常備的工具是啥呢?神器組合:xmind + sql+power bi +excel。我自己在實際工作中也是屢試不爽的。
01 工具包
工具都是有自己的適用場景的,知道什么場景下用什么樣的工具,可以最大程度的提高自己的效率。
各個工具的使用場景和順序:
02 微軟的商業智能'利器'
有些人可能對于POWER BI比較陌生,參考我之前的一篇文章來個科普貼。我自己是從2018年工作中接觸到POWER BI,自那以后也是比較癡迷于它。
-POWER BI與excel處理邏輯相似,由于它是微軟公司做的商業智能軟件。
-從excel演變而來,計算表達式與excel的函數表達式很像,區別是POWER BI的函數直接作用于一列或者一張表。
-學習成本比SQL和Python都要簡單,基本上能應付絕大部分數據分析場景。
-本身使用是免費的。
03 POWER BI的優勢
下面以一個案例來講下POWER BI使用及優勢。
Kaggle上的一個零售數據集:某英國在線零售商8個月訂單數據,訂單表,產品維度表(是我隨意打標簽的創造的一個):
stockcode: 產品code,invoiceNo:訂單號,invoicedate:下單日期,unitprice:單價,quantity:數量,customerid:顧客id;
我們從數據分析項目的流程來簡單講下優勢(操作步驟見下圖演示):
- 數據清洗整理(多數據源導入,清理模板,數據量大時候,速度快,數據基本空值情況)
可以從多數據源導入數據,本案例導入了csv和excel文件兩種(1&2);然后在power query進可以看到列中的空值與錯誤值情況(3),用行了清洗,去除空值和負值,這些清理操作會被保留下來(4),下次更新數據源,不用再操作一遍。
- 數據模型建立 - 建立關系 + 表+ 計算列 + 度量值 + 計算應用(計算銷售額)
POWER BI有個比較重要的功能就是數據模型,這個概念是數據倉庫中有的,接地氣點說就是搭建數據報表模板。
我們將兩張表(5)通過stockcode這個子段建立了關系(6-vlookup),然后生成新的計算列‘銷售額’(7),計算每個產品的價格,最后用度量衡聚合SUM函數計算來銷售總額(8)。
- 我們用分析常用的視角來可視化探索這個零售的數據。
描述看各個國家的體量情況(9&10,采用地圖視角);用分解樹細分定位國家的主要構成品類(11&12);看各個品類的趨勢情況(13&14)最后通過切片可以篩選任意國家的趨勢情況(15&16)。
- 固定化成模板 -可以直接連接數據庫。
POWER BI還有強大的功能可以直接連接數據庫,然后可以根據已經制作好的模板,處理數據呈現想看的結果,以及建立動態儀表盤等等功能。
如果有興趣入門的話,可以繼續關注我的公眾號,后續會對POWER BI進行分析專題分享;
歡迎關注微信公眾號'數據氧氣',回復【軟件安裝包】,即可獲得文中的數據集以及POWER BI安裝包和POWER BI文件。