《誰說菜鳥不會數據分析》讀書筆記2

第二章 數據準備

1.? ? 理解數據

1. 1? 字段與記錄

以上表為例,這樣的成績表從數據分析角度來看,是一個典型的數據庫。該表第一行的“學號”、“姓名”、“性別”、“總分”等被稱為字段,這是數據庫的術語,每位同學的基本情況和成績則構成了一條條的數據記錄,如變2所示。

從數據分析的角度來理解字段和記錄的概念:

? ? 字段是實物或現象的某種特征。比如成績表中的“學號”、“姓名”、“性別”、“總分”等都是字段,在統計學中成為變量。

? ? 記錄是事物或現象某種特征的具體表現。比如成績表中的“性別”可以是男或女,“總分”可以是237或者230等,記錄也成為數據或變量值。

數據需要由字段與記錄共同組合而成。

1.2? 數據類型

以表3 職工信息表為例,看看表中數據大概分為幾類?

表中數據大概可分為數字、文字、日期三類。這也是我們常用的數據類型,當然還有如貨幣等其他數據類型。若想知道數據到底有多少類,可在Excel中用單元格格式查看所有的數據類型,如圖4所示。

圖4

從圖4所示的對話框中可以看到各種不同的數據類型,如:數值、文本、日期、貨幣、會計專用、時間、百分比、分數、科學計數、特殊等。

Excel中雖然有這么多數據類型,但最終可以分為兩大類。

? ? 字符型數據

字符型數據是不具計算能力的文字數據類型。包括中文字符、英文字符、數字字符(非數值型)等字符。例如上文成績表中的“姓名”? “性別”? “總評”? 三個變量均為字符型數據,職工信息表中的“員工號”? “姓名”? “性別”? “部門”? 四個變量為字符型數據。

? ? 數值型數據

是直接使用自然數或度量單位進行計量的數值數據。例如成績表中的 “語文”? “數學”? “英語” 三科成績匯總即得到 “總分” 這個字段,職工信息表中,可按 “入職日期” 計算工齡,這些數據就是數值型數據。對于數值型數據,我們可以用算數方法進行匯總和分析,這點是區分數據是否屬于數值型數據的重要依據。

1.3? ? 數據表

由字段、記錄和數據類型構成數據表。數據分析所需要的數據表有一定的要求,具體如表5所示:

表5

什么是一維表、什么是二維表?

表6 一維表與二維表

這里的 “維” 指的是分析數據的角度,2006年、2007年、2008年從數據的角度來說,都是 “年份” 的范疇,是描述各省GDP的一個因素,若要換成一維表,則應該使用同一個字段,將年份單獨作為列標簽。

1.4? 問卷錄入

我們經常接觸到的調查問卷數據,其錄入格式也是有講究的。

? 單選題

答案只能有一個,編碼時只需定義一個變量,即給該題留一列進行數據 的錄入。錄入時可采用1、2、3、4分別代表A、B、C、D四個選項,例如被調查者選 “C” 則錄入 “3” 。

? 多選題

答案可以有多個選項,又分為項數不定多選和項數限定多選。多選題的錄入有兩種方式:二分法和多重分類法。

? ? ? ? ? 二分法。把每一個相應選項定義為一個變量,每一個變量值均作如下定義: “0” 代表未選, “1” 代表已選,即對于被調查者選中的選項錄入 “1” ,對未選的選項錄入 “0” 。

? ? ? ? ? 多重分類法。事先定義錄入的數值,比如1、2、3、4、5、6、7分別代表A、B、C、D、E、F、G,并且根據限選的項數確定應錄入的變量個數。

? 排序題

排序題的錄入與多重分類法類似,先定義錄入的數值,1、2、3、4、5、6、7分別代表A、B、C、D、E、F,然后按照被調查者填寫的順序錄入選項。

? 開放性文字題

如果可能的話可以按照含義相似的答案進行歸類編碼,轉換成多選題進行分析。如果答案內容比較豐富、不容易歸類,就應對這些問題做定性分析。

表7 二分法和多重分類法

2.? ? 初識Excel

Excel主要包括這幾個模塊:菜單操作、函數、圖表、宏的應用。

2.1? ? 菜單操作

? ? 小技巧? 自動調整列寬/行距:如選中A列至D列,鼠標移到A、B、C、D任意列標之間,直到光標變成左右帶箭頭的十字圖形,然后雙擊選中的所有列即自動調整為最合適的列寬了。這種方法還可以用于調整合適的行距。

2.2? ? 函數

關于函數,需說明幾點。

? ? 每個函數都有一個函數名,都有一對括號將函數包圍住,參數間用逗號分隔,參數可以是公式、函數、值。例如 “=IF(A3>100,40,0)” ,其中函數名為 “IF” ,公式 “A3>100” 和數值 “40” 都是參數。

? ? 在單元格內等號作為函數的開始,函數可以嵌套。

2.3? ? 圖表

作圖表的主要目的是表現數據、傳遞信息。每一幅圖標都必須有中心思想,即你要傳遞的主要信息。

生成圖表后,有三種方式對其進行編輯。

? ? 第一種,用鼠標單擊圖形中的任意地方,接著會發現Excel的功能區里多了一個 “圖表工具” 的功能組,其中包含了 “設計”、“布局” 和 “格式” 選項卡,可以根據自己的需求編輯該圖表。

圖2.3-1

? ? 第二種,鼠標雙擊該圖表的任意區域,即可彈出對應的格式對話框。

? ? 第三種,按 “Ctrl+1” 快捷鍵,同樣可以彈出對應的格式對話框,在進行編輯。

對于后兩種方式需要補充說明一點:鼠標選擇的是哪一元素,即彈出哪一元素的格式對話框。

2.4? ? 宏

宏是一個指令集。是可運行任意次數的一個操作或一組操作。若要在Excel中重復執行多個任務,則可以錄制一個宏來自動執行。例如每個月要上交一份職位表,表中需要將發生崗位變化的員工編號設置為紅色和加粗格式,就可以創建一個宏,每月運行該宏將這些格式變更迅速應用到職位表中。

Ⅰ? ? 打開 “視圖” 選項卡,單擊 “宏” 的下拉菜單,先選中 “使用相對引用” 選項,在單擊 “錄制宏” 選項,如圖2.4.1所示。


圖2.4-1 “宏”下拉菜單

Ⅱ? ? 此時,會彈出一個 “錄制新宏” 對話框,在里面可以對宏進行命名,可以根據宏實現的功能來命名。這里我們將其命名為 “紅色加粗” ,然后,設置 “快捷鍵” ,這是 “紅色加粗” 宏的專用快捷鍵,注意不要與Excel本身內置的快捷鍵重復,如圖2.4.2。

圖2.4-2 設置宏名與快捷鍵

注意,在Excel主界面左下角的就緒旁有一個圖表,如下圖,單擊它可以實施 “錄制宏” 和 “停止錄制” 的操作。

Ⅲ? ? 在工作表中執行你的操作。比如這里,我們將A1單元格的數據變成紅色并加粗。

Ⅳ? ? 再單擊 “視圖” 選項卡→ “宏” → “停止錄制” 。

Ⅴ? ? 選擇任意其他單元格或者區域,再單擊 “視圖” 選項卡→ “宏” → “查看宏” ,此時會彈出一個宏窗口,選擇剛才的 “紅色加粗” 宏,并單擊 “執行” 按鈕。使用剛剛自行設置的快捷鍵 “Ctrl+Q” 也會達到同樣的效果。

2.5? ? 快捷鍵

下表為最基礎且非常方便的快捷鍵:

表2.5-1

Excel的功能區附帶了新的快捷方式,稱為按鍵提示:

Ⅰ? ? 按Alt鍵,顯示按鍵提示,如圖2.5.2所示,Excel界面上的選項卡和按鈕即刻出現了帶方框的按鍵提示。

圖2.5-2 快捷鍵提示—步驟1

Ⅱ? ? 在鍵盤上按下對應選項卡的按鍵,即刻就能在功能區上打開該選型卡。例如,對于 “視圖” 選項卡,按字母鍵 “W” ;對于 “公式” 選項卡,按字母鍵 “M” 。打開的選項卡將繼續顯示其包含的所有功能的按鍵提示。

例如,想實行 “視圖” 選項卡中的 “凍結窗口” 功能,先按字母鍵 “W” ,將顯示 “視圖” 主選項卡所有功能的快捷鍵,如圖2.5.3所示。

圖2.5.2 快捷鍵提示—步驟2

再按下 “F” 鍵,就快速地完成了凍結窗口的操作了。

3.? ? 數據來源

取得數據的方式可以分為兩種:導入外部數據和自己錄入數據。

3.1? ? 導入外部數據

導入外部數據常見的來源有兩張,文本和網站數據。

? ? 導入文本數據

Ⅰ? ? 單擊 “數據” 選項卡,選擇 “自文本” 選項,Excel會自動彈出相對應的對話框。

Ⅱ? ? 找到保存的 “問卷錄入結果.txt” 文件。

還有一種方式,在 “文件” 選項卡中,打開 “文件” 選項,Excel會自動彈出對話框,在 “文件類型” 中選擇 “文本文件” ,然后,找到需要的文件,此時將會彈出 “文本導入向導” 對話框。如圖3.1-1所示。

3.1-1 文本導入向導—第1步

Ⅲ? ? 在上圖對話框中有兩個選項 “分隔符號” 和 “固定寬度” 。若文本文件中的列標簽以制表符、冒號、分號、空格或者其他字符分隔,則選擇 “分隔符號” ;若想自己設定每列分隔的具體位置,則選擇 “固定寬度” 。單擊 “下一步” 按鈕,得到圖3.1-2對話框。

3.1-2 文本導入向導—第2步

Ⅳ? ? 如上圖對話框中列出了Tab鍵、分號、逗號、空格的分隔符以供選擇。若分隔符是其他字符,則選擇 “其他” 復選框,在后面的文本框中輸入字符。單擊 “下一步” ,彈出文本導入向導第3步的對話框,如圖3.1-3。

3.1-3 文本導入向導—第3步

Ⅴ? ? 若不需要將某列導入Excel中,可以在 “數據預覽” 中選擇此列,后勾選 “不導入此列(跳過)” 。不需要刪除某列,故選擇 “常規” 即可,單擊 “完成” 按鈕。

Ⅵ? ? 彈出 “導入數據” 對話框,在其中選擇存放數據的位置,單擊下圖中按鈕拖動或縮放單元格區域,再次點擊該按鈕回復對話框→ “確定” 。

3.1-4 導入文本數據

Ⅶ? ? 返回工作表,文本文件中的數據就會按所設置的格式自動導入到其中。

? ? 導入網站數據

Ⅰ? ? 單擊 “數據” 選項卡,選擇 “自網站” 選項,Excel會彈出 “新建Web查詢” 對話框。

Ⅱ? ? 在對話框的地址欄里輸入要導入數據的網址, 單擊 “轉到” 按鈕,單擊下圖黃色箭頭按鈕,使其變成圖中綠色√。

Ⅲ? 單擊 “導入” , 彈出 “導入數據” 對話框,在工作表中選擇需要放置數據的區域,單擊 “確定”。

更新數據的方式有三種:即時刷新、定時刷新、打開文件時自動刷新

? ? 即時刷新。單擊 “數據” 主選項卡→ “刷新數據”即可。

3.1-5 即時刷新數據

? ? 定時刷新或打開文件時自動刷新。在上圖方法二的快捷菜單中有個 “數據區域屬性” ,選擇該選項,彈出 “外部數據區域屬性” 對話框,勾選? “刷新頻率” 復選框,選擇刷新的間隔時間,就能實現定時刷新。在“外部數據區域屬性” 對話框中還有? “打開文件時刷新數據” 復選框。

3.1-6 定時刷新和打開文件時自動刷新

? ? 我們也可以直接在網站上復制所需的數據,再進行粘貼。

3.1-7 直接粘貼網站數據

在工作表中粘貼數據后,數據區域右下角會出現一個 “粘貼” 按鈕,單擊,選擇 “可刷新的Web查詢” 命令。

3.2? ? 手動輸入數據

? ? 快速設置單元格格式

表3.2-1 常用單元格格式的快捷鍵

我們直接輸入 “1/3” 單元格默認將它轉成日期格式,顯示成 “1月3號” ,但如果我們先輸入 “0+空格” ,再輸入 “1/3” 即可。

? ? 選中單元格,直接按 “F2” 鍵,則單元格就進入編輯模式。

? ? Ctrl+1 彈出設置單元格對話框。

? ? 省時省力的填充柄 “+”

表3.2-2 填充序列


? ? 讓 “0” 站首位

比如在錄入數據時,輸入 “007” ,但輸進去就變成 “7” ,如何解決。

上面的情況是Excel將輸入的值默認成數值類型的數據,如果在需要輸入的文本前面先輸一個英文的單引號 “ ' ” 字符,就默認成文本格式了,上述問題即可解決。這也是區分數字單元格是數值還是文本的標識。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,030評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,310評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,951評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,796評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,566評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,055評論 1 322
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,142評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,303評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,799評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,683評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,899評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,409評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,135評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,520評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,757評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,528評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,844評論 2 372

推薦閱讀更多精彩內容

  • 1.1 VBA是什么 直到90年代早期,使應用程序自動化還是充滿挑戰性的領域.對每個需要自動化的應用程序,人們不得...
    浮浮塵塵閱讀 21,805評論 6 49
  • 一、誤刪資料恢復 一不小心刪錯了,還把回收站清空了,咋辦啊?只要三步,你就能找回你刪掉并清空回收站的東西。 步驟:...
    八爺君閱讀 1,550評論 2 7
  • 也許你已經在Excel中完成過上百張財務報表,也許你已利用Excel函數實現過上千次的復雜運算,也許你認為Exce...
    jbmqcqnuco閱讀 489評論 0 0
  • 別和我說你不會EXCEL,半小時讓你成為EXCEL高手,據說,80%以上的人看了這個,都相見恨晚,你會么?如果我們...
    夏洛克的克閱讀 8,462評論 4 268
  • 也許你已經做了上千張表格,也許你用函數算了上千復雜的運算。也許認為excel不過如此,今天25招秘技希望可以幫到大...
    南屋阿米佛頭閱讀 3,729評論 0 51