數據可視化專家的七個秘密

數據可視化的道路上充滿了不可見的陷阱和迷宮,最近ClearStory Data的兩位數據可視化開發人員分享了他們總結出來的數據可視化開發的7個不宣之秘,普通開發者了解這些方法能提升視野,少走彎路。

數據可視化, 特別是基于Web的數據可視化的時代已經到來了。 類似JavaScript的可視化庫如D3.js, Rapha?l,以及Paper.js, 以及最新瀏覽器所支持的如Canvas和SVG,

以及使得那些過去只能由計算機專家和專業設計人員開發的復雜的可視化變得越來越簡單了。

數據可視化如今成為了很多網站項目的必備功能。 而類似于Platfora, Datameer, ClearStory Data以及Chartio等初創公司則可以利用基于瀏覽器的分析平臺融到數百萬美元的投資。

數據可視化是數據探索以及數據表現的重要方式, 然而, 對于數據可視化的開發者來說, 依然有很多挑戰要去面對。 這些迎接這些挑戰的方法,

則是很多專業的數據可視化開發者不愿意讓別人知道的秘密。 ClearStory Data的兩位數據可視化開發人員Nate Argrin和 Nick

Rabinowitz 在 netmagzine.com上分享了他們總結出來的數據可視化開發的7個秘密以及在實踐中如何應對的方式。

秘密一: 現實中的數據往往很丑

大部分的數據可視化的教程, 都會讓你輕松地從一個原始數據集開始。 無論你是學習基本的柱狀圖還是力導向的網絡圖,

你的數據都是干凈的,經過整理的數據。 這些完美的JSON或者CSV文件就像電視里的廚藝節目中的灶臺那樣干凈整潔。而實際上,當你在處理現實中的真正的數據是, 你80%的時間得用來搜尋, 獲取, 載入, 清洗以及轉換你的數據。這樣的過程, 有時候可以用自動化的工具來完成。 不過,差不多任何需要針對兩個以上的數據集進行清洗的工作總會需要或多或少的人工的工作。有很多工具能夠把XLS文件轉化為XML的格式或者把時間戳轉換為其他日期格式。但是, 要想把一個公司的內部使用的銷售類型與競爭對手進行比對, 或者對輸入錯誤進行檢查,或者對不同的Encoding或者OCR產生出來的文字進行檢查時, 就只能靠手工來處理了。

工具及處理方式:

1)在數據可視化項目中給數據清洗留出足夠的時間, 特別是在需要處理多個數據源, 需要手工錄入或者OCR數據, 進行不同類別的配比, 或者需要處理一些非標準格式時, 需要留出更多的時間。

2)Google Refine (編者:需要FQ)是一個很好的數據清洗工具, 盡管在有些地方, 特別是處理非表格化數據時有些不足。 此外,

還有一些數據清洗專用的工具如Data Wranger 和 Mr. Data Converter。 不過,

很多的數據清洗工作仍然需要你熟悉腳本語言如Python或者需要你在Excel里進行一些手工工作。 記得把你的腳本存檔, 你以后肯定用得上。

3)用簡單的一些散點圖或者直方圖來發現一些超正常范圍的錯誤數據。

秘密二: 柱狀圖往往更好

和柱狀圖比起來, 氣泡圖可以在同樣的空間表現更多地數據, 餅圖可以更清晰地表現整體和局部的關系, 樹狀圖能夠更好地表現分層的結構。然而, 這些圖在簡單明了方面都無法與柱狀圖相比。

在考慮數據可視化設計方案時, 我們要問自己的第一個問題就是:“這個方案比柱狀圖好嗎?”

如果你需要在一個單一維度上可視化一個可量化的數據集,那么很少有別的方式能比得上柱狀圖。 類似的, 時間序列最好表現為線狀圖,

而散點圖一般用來表現兩個線性度量的相關性。 在數據可視化設計中, 使用這些從18世紀以來就一直在使用的圖風險最低。

而柱狀圖對于進行數據比較的可視化來說是最佳方式。 因為我們人眼最習慣的比較方式就是將兩個東西并排比較。

關于柱狀圖優先, 其實揭示了數據可視化中一個最大的秘密, 那就是, 那些最酷的可視化往往用處反而最小。

最求新奇以及美觀的可視化往往帶來一個問題,那就是數據的可理解問題。 很多柱狀圖的替代圖迫使人們用他們并不擅長的方式進行比較, 如比較面積,

角度, 色彩, 或者透明度等。 這些比較, 說好聽的, 是增加了比較的難度,說的嚴重一些, 可能會對數據進行扭曲, 導致使用者得出錯誤的結論。

工具及處理方式:

1)不要輕易拋棄那些傳統的可視化方式, 如果這些方式能夠表現你的數據。 先試試柱狀圖或者線狀圖, 如果你的數據真的需要其他的再考慮其他圖。

2)理解其他形式的圖的表現優勢, 比如, 氣泡圖支持更多地數據范圍, 餅圖支持局部全局的對比, 樹狀圖能夠支持分層結構等等。

3)柱狀圖是可視化最容易的圖形之一, 你可以手工編寫一段HTML代碼, 僅僅使用CSS或者很少量的JavaScript, 或者從Excel里面的一個公式, 就可以生成一個有效的柱狀圖來。

秘密三: 真實數據不可替代

對一個數據集進行清洗和格式化已經很繁瑣了, 如果你需要設計一個基于多個數據集的可視化呢? 比如你需要把公司不同部門的數據進行可視化,

而這些部門各自有各自的數據庫, 而且你也沒有時間手工把每個數據集進行清洗。 這時候, 人們的第一想法可能是抓一些Demo的數據來進行可視化。

而且你的可視化庫里可能就有一些標準的樣本數據。

很不幸, 真實數據不可替代。 Demo數據一般遵循正態分布而且數據量有限。 是為了展示可視化用的。

而一個看上去完美的柱狀圖,并不能幫助你解決那些數據缺失, 異常數據或者現實中的真實問題。 如果你過度依賴Demo數據, 當你用真實數據時,

你就會發現你的數據可視化設計并不能真正滿足你的數據分析或者數據表現的需求。

工具及處理方式:

1)如果你無法訪問整個數據集, 不妨先試試從真實數據集中隨機取些樣本數據。

2)保留無效或者缺失數據, 如果你的數據集在可視化前不準備進行數據清洗, 那么也不要清洗樣本數據。

3)真實數據集也許過大。 在你使用樣本數據時,在生成最終的可視化圖前, 等比例調整樣本數據規模。

秘密四:細節的地方才最頭痛

如上圖, 當你水平排列數據標識時, 數據標識會看不清, 如果旋轉90度, 數據標識是看清楚了, 不過又浪費了很大一塊空間。 選擇一個合適的數據標識格式對有些可視化來說是個解決方案, 不過也不是對所有方案都適用。

設計數據標識, 注釋或者橫軸縱軸通常都是在初始可視化后才考慮的。 不過這些元素對可視化來說非常重要, 而且可能會很困難或者需要大量時間才能把它們做好。 特別是在你無法事先預知你的數據的情況下。

在設計你的可視化的時候, 你需要留出相當部分的空間以便你可能需要添加標識只用, 通常要在你的圖周圍留出相對較大的空間。

橫縱軸上的標識要保證它們不相互覆蓋而且可讀。 如果必要的話, 可以將標識進行旋轉來增加可讀性。 如果有一塊空間標識過于集中,

而你又需要這些標識可讀, 你可以讓考慮把標識離它們所指的元素遠一些, 然后用連接線把標識和元素連起來。 另外一種方式就是把標識整合成一個組,

用標識工具提示的方式來進行可視化。 如果標識的文字過長, 可以考慮進行縮寫或者把超出的文字剪掉等方式。

類似的, 對圖的注釋也需要事先計劃好。 最簡單的方式就是在可視化中保留一部分區域來方便添加注釋。 不過, 這樣意味著你的圖所占的部分就會減小。 為了保留空間, 把注釋放在圖上的空白部分。 或者把注釋做成可拖拽, 這樣用戶可以把注釋移開來看注釋遮蓋的部分。

工具及處理方式:

1)在設計時把數據標識, 數據軸及注釋的空間在圖上留好。

2)對數據標識, 定義最大字符數, 超出部分需要裁掉。 把相近的標識組合在一起, 在用戶點到時再顯示。

3)對長注釋, 可以考慮用滾動或者展開的方式

4)無論如何, 不要忽視這些元素。 數據標識在你專注圖形設計的時候, 可能不是你的最主要考慮, 不過它們對可視化的用戶來說非常重要。

秘密五:需要的時候才用動畫

可視化的設計者經常希望能夠在最終設計上加上動畫。 動畫是一種連接數據和變化趨勢的非常有用的工具。

不過動畫也常常會導致對你的數據的錯誤理解。 你需要對它會如何影響你的最終效果進行評估, 而不是簡單地在最后加上動畫效果。 動畫最適合表現的,

是揭示數據如何在不同狀態下組合在一起, 如何隨時間變化或者是如何相互影響的等場合。

一般的設計原則是, 動畫要簡單, 可預測并且可以重新播放。 讓用戶能夠多次播放動畫, 可以讓他們看到動畫元素從哪里開始到哪里停止。

要避免不同元素在移動中互相覆蓋, 不要讓元素的運動不可預測。 對于復雜的動畫, 研究表明,

可以把動畫分解為幾個不同的階段,在每個階段暫停一會給用戶一些時間來體會。 這樣有助于提高用戶的理解。

工具及處理方式:

1)盡可能讓動畫簡單

2)如果動畫復雜或者有很多動畫元素, 可以考慮分階段動畫

3)一開始動畫往往能夠給人新鮮感, 不過會很快讓用戶感到厭倦。 不要僅僅因為你會加動畫就在你的可視化你加上動畫。

秘密六: 數據可視化不是分析

數據可視化可以產生一些分析結果, 不過需要指出的是, 可視化是一個輔助分析的工具, 而不是數據分析的替代, 它也不是統計的替代:

你的圖形可能揭示了一些數據差異或者數據的相關性。 不過, 要得出存在這些差異和相關性的可靠結論, 還需要運用統計的方法。 要對你的數據真正了解,

需要分析的技能, 以及專業的知識。 不要指望可視化能夠給你這些。 因此, 在進行可視化項目的時候, 要調整客戶或者你的CEO的期望值。

工具及處理方式:

1)除非你就是數據分析師, 你對數據可視化得出的結論不要輕易下判斷。 如果需要進行結論, 最好找一個統計師或者專業人士一起驗證后再給結論。

2)一些細小的設計改變, 比如調色板的變化, 對某個變量的可視化方式等, 都可能改變可視化得出的結論。 如果你用可視化進行分析, 一定要試試多種可視化方式, 而不要依賴于一種方式。

3)Stephen Few的 書“Now You See It”里面介紹了利用可視化進行商業分析的方式, 包括對開發者如何設計可供分析使用的可視化工具的一些建議, 讀者可以參考

秘密七: 數據可視化不僅僅是編程

現在大量的可視化編程庫和教程使得普通的人員在進行基于Web的可視化中, 也可以設計出高質量的可視化產品。 然而,

要想真正設計一個能夠提供深入見解, 或者能夠清楚表達的可視化產品, 除了編程之外, 還需要很多其他的技能。 比如圖像設計, 數據分析,

交互設計, 以及對人們認知的了解等待。 這些技能, 是那些可視化編程庫提供不了的。

不過, 好消息是,如果你堅持采用一些數據可視化的基本原則的話。

你也不需要對這些技能了解太多。對于初學者來說, 需要堅持一些最基本的原則, 比如, 盡量使用柱狀圖,

不要把圓半徑設置按線性比例設定(編者: 在面積比較時會給用戶錯誤理解), 設計要簡單(不要用3D, 少用動畫, 不要用陰影)等。

按照一些好的可視化樣本, 初學者也可以創造出好的可視化作品來。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內容