第二章 數據準備
1.? ? 理解數據
1. 1? 字段與記錄
以上表為例,這樣的成績表從數據分析角度來看,是一個典型的數據庫。該表第一行的“學號”、“姓名”、“性別”、“總分”等被稱為字段,這是數據庫的術語,每位同學的基本情況和成績則構成了一條條的數據記錄,如變2所示。
從數據分析的角度來理解字段和記錄的概念:
? ? 字段是實物或現象的某種特征。比如成績表中的“學號”、“姓名”、“性別”、“總分”等都是字段,在統計學中成為變量。
? ? 記錄是事物或現象某種特征的具體表現。比如成績表中的“性別”可以是男或女,“總分”可以是237或者230等,記錄也成為數據或變量值。
數據需要由字段與記錄共同組合而成。
1.2? 數據類型
以表3 職工信息表為例,看看表中數據大概分為幾類?
表中數據大概可分為數字、文字、日期三類。這也是我們常用的數據類型,當然還有如貨幣等其他數據類型。若想知道數據到底有多少類,可在Excel中用單元格格式查看所有的數據類型,如圖4所示。
從圖4所示的對話框中可以看到各種不同的數據類型,如:數值、文本、日期、貨幣、會計專用、時間、百分比、分數、科學計數、特殊等。
Excel中雖然有這么多數據類型,但最終可以分為兩大類。
? ? 字符型數據
字符型數據是不具計算能力的文字數據類型。包括中文字符、英文字符、數字字符(非數值型)等字符。例如上文成績表中的“姓名”? “性別”? “總評”? 三個變量均為字符型數據,職工信息表中的“員工號”? “姓名”? “性別”? “部門”? 四個變量為字符型數據。
? ? 數值型數據
是直接使用自然數或度量單位進行計量的數值數據。例如成績表中的 “語文”? “數學”? “英語” 三科成績匯總即得到 “總分” 這個字段,職工信息表中,可按 “入職日期” 計算工齡,這些數據就是數值型數據。對于數值型數據,我們可以用算數方法進行匯總和分析,這點是區分數據是否屬于數值型數據的重要依據。
1.3? ? 數據表
由字段、記錄和數據類型構成數據表。數據分析所需要的數據表有一定的要求,具體如表5所示:
什么是一維表、什么是二維表?
這里的 “維” 指的是分析數據的角度,2006年、2007年、2008年從數據的角度來說,都是 “年份” 的范疇,是描述各省GDP的一個因素,若要換成一維表,則應該使用同一個字段,將年份單獨作為列標簽。
1.4? 問卷錄入
我們經常接觸到的調查問卷數據,其錄入格式也是有講究的。
? 單選題
答案只能有一個,編碼時只需定義一個變量,即給該題留一列進行數據 的錄入。錄入時可采用1、2、3、4分別代表A、B、C、D四個選項,例如被調查者選 “C” 則錄入 “3” 。
? 多選題
答案可以有多個選項,又分為項數不定多選和項數限定多選。多選題的錄入有兩種方式:二分法和多重分類法。
? ? ? ? ? 二分法。把每一個相應選項定義為一個變量,每一個變量值均作如下定義: “0” 代表未選, “1” 代表已選,即對于被調查者選中的選項錄入 “1” ,對未選的選項錄入 “0” 。
? ? ? ? ? 多重分類法。事先定義錄入的數值,比如1、2、3、4、5、6、7分別代表A、B、C、D、E、F、G,并且根據限選的項數確定應錄入的變量個數。
? 排序題
排序題的錄入與多重分類法類似,先定義錄入的數值,1、2、3、4、5、6、7分別代表A、B、C、D、E、F,然后按照被調查者填寫的順序錄入選項。
? 開放性文字題
如果可能的話可以按照含義相似的答案進行歸類編碼,轉換成多選題進行分析。如果答案內容比較豐富、不容易歸類,就應對這些問題做定性分析。
2.? ? 初識Excel
Excel主要包括這幾個模塊:菜單操作、函數、圖表、宏的應用。
2.1? ? 菜單操作
? ? 小技巧? 自動調整列寬/行距:如選中A列至D列,鼠標移到A、B、C、D任意列標之間,直到光標變成左右帶箭頭的十字圖形,然后雙擊選中的所有列即自動調整為最合適的列寬了。這種方法還可以用于調整合適的行距。
2.2? ? 函數
關于函數,需說明幾點。
? ? 每個函數都有一個函數名,都有一對括號將函數包圍住,參數間用逗號分隔,參數可以是公式、函數、值。例如 “=IF(A3>100,40,0)” ,其中函數名為 “IF” ,公式 “A3>100” 和數值 “40” 都是參數。
? ? 在單元格內等號作為函數的開始,函數可以嵌套。
2.3? ? 圖表
作圖表的主要目的是表現數據、傳遞信息。每一幅圖標都必須有中心思想,即你要傳遞的主要信息。
生成圖表后,有三種方式對其進行編輯。
? ? 第一種,用鼠標單擊圖形中的任意地方,接著會發現Excel的功能區里多了一個 “圖表工具” 的功能組,其中包含了 “設計”、“布局” 和 “格式” 選項卡,可以根據自己的需求編輯該圖表。
? ? 第二種,鼠標雙擊該圖表的任意區域,即可彈出對應的格式對話框。
? ? 第三種,按 “Ctrl+1” 快捷鍵,同樣可以彈出對應的格式對話框,在進行編輯。
對于后兩種方式需要補充說明一點:鼠標選擇的是哪一元素,即彈出哪一元素的格式對話框。
2.4? ? 宏
宏是一個指令集。是可運行任意次數的一個操作或一組操作。若要在Excel中重復執行多個任務,則可以錄制一個宏來自動執行。例如每個月要上交一份職位表,表中需要將發生崗位變化的員工編號設置為紅色和加粗格式,就可以創建一個宏,每月運行該宏將這些格式變更迅速應用到職位表中。
Ⅰ? ? 打開 “視圖” 選項卡,單擊 “宏” 的下拉菜單,先選中 “使用相對引用” 選項,在單擊 “錄制宏” 選項,如圖2.4.1所示。
Ⅱ? ? 此時,會彈出一個 “錄制新宏” 對話框,在里面可以對宏進行命名,可以根據宏實現的功能來命名。這里我們將其命名為 “紅色加粗” ,然后,設置 “快捷鍵” ,這是 “紅色加粗” 宏的專用快捷鍵,注意不要與Excel本身內置的快捷鍵重復,如圖2.4.2。
注意,在Excel主界面左下角的就緒旁有一個圖表,如下圖,單擊它可以實施 “錄制宏” 和 “停止錄制” 的操作。
Ⅲ? ? 在工作表中執行你的操作。比如這里,我們將A1單元格的數據變成紅色并加粗。
Ⅳ? ? 再單擊 “視圖” 選項卡→ “宏” → “停止錄制” 。
Ⅴ? ? 選擇任意其他單元格或者區域,再單擊 “視圖” 選項卡→ “宏” → “查看宏” ,此時會彈出一個宏窗口,選擇剛才的 “紅色加粗” 宏,并單擊 “執行” 按鈕。使用剛剛自行設置的快捷鍵 “Ctrl+Q” 也會達到同樣的效果。
2.5? ? 快捷鍵
下表為最基礎且非常方便的快捷鍵:
Excel的功能區附帶了新的快捷方式,稱為按鍵提示:
Ⅰ? ? 按Alt鍵,顯示按鍵提示,如圖2.5.2所示,Excel界面上的選項卡和按鈕即刻出現了帶方框的按鍵提示。
Ⅱ? ? 在鍵盤上按下對應選項卡的按鍵,即刻就能在功能區上打開該選型卡。例如,對于 “視圖” 選項卡,按字母鍵 “W” ;對于 “公式” 選項卡,按字母鍵 “M” 。打開的選項卡將繼續顯示其包含的所有功能的按鍵提示。
例如,想實行 “視圖” 選項卡中的 “凍結窗口” 功能,先按字母鍵 “W” ,將顯示 “視圖” 主選項卡所有功能的快捷鍵,如圖2.5.3所示。
再按下 “F” 鍵,就快速地完成了凍結窗口的操作了。
3.? ? 數據來源
取得數據的方式可以分為兩種:導入外部數據和自己錄入數據。
3.1? ? 導入外部數據
導入外部數據常見的來源有兩張,文本和網站數據。
? ? 導入文本數據
Ⅰ? ? 單擊 “數據” 選項卡,選擇 “自文本” 選項,Excel會自動彈出相對應的對話框。
Ⅱ? ? 找到保存的 “問卷錄入結果.txt” 文件。
還有一種方式,在 “文件” 選項卡中,打開 “文件” 選項,Excel會自動彈出對話框,在 “文件類型” 中選擇 “文本文件” ,然后,找到需要的文件,此時將會彈出 “文本導入向導” 對話框。如圖3.1-1所示。
Ⅲ? ? 在上圖對話框中有兩個選項 “分隔符號” 和 “固定寬度” 。若文本文件中的列標簽以制表符、冒號、分號、空格或者其他字符分隔,則選擇 “分隔符號” ;若想自己設定每列分隔的具體位置,則選擇 “固定寬度” 。單擊 “下一步” 按鈕,得到圖3.1-2對話框。
Ⅳ? ? 如上圖對話框中列出了Tab鍵、分號、逗號、空格的分隔符以供選擇。若分隔符是其他字符,則選擇 “其他” 復選框,在后面的文本框中輸入字符。單擊 “下一步” ,彈出文本導入向導第3步的對話框,如圖3.1-3。
Ⅴ? ? 若不需要將某列導入Excel中,可以在 “數據預覽” 中選擇此列,后勾選 “不導入此列(跳過)” 。不需要刪除某列,故選擇 “常規” 即可,單擊 “完成” 按鈕。
Ⅵ? ? 彈出 “導入數據” 對話框,在其中選擇存放數據的位置,單擊下圖中按鈕拖動或縮放單元格區域,再次點擊該按鈕回復對話框→ “確定” 。
Ⅶ? ? 返回工作表,文本文件中的數據就會按所設置的格式自動導入到其中。
? ? 導入網站數據
Ⅰ? ? 單擊 “數據” 選項卡,選擇 “自網站” 選項,Excel會彈出 “新建Web查詢” 對話框。
Ⅱ? ? 在對話框的地址欄里輸入要導入數據的網址, 單擊 “轉到” 按鈕,單擊下圖黃色箭頭按鈕,使其變成圖中綠色√。
Ⅲ? 單擊 “導入” , 彈出 “導入數據” 對話框,在工作表中選擇需要放置數據的區域,單擊 “確定”。
更新數據的方式有三種:即時刷新、定時刷新、打開文件時自動刷新
? ? 即時刷新。單擊 “數據” 主選項卡→ “刷新數據”即可。
? ? 定時刷新或打開文件時自動刷新。在上圖方法二的快捷菜單中有個 “數據區域屬性” ,選擇該選項,彈出 “外部數據區域屬性” 對話框,勾選? “刷新頻率” 復選框,選擇刷新的間隔時間,就能實現定時刷新。在“外部數據區域屬性” 對話框中還有? “打開文件時刷新數據” 復選框。
? ? 我們也可以直接在網站上復制所需的數據,再進行粘貼。
在工作表中粘貼數據后,數據區域右下角會出現一個 “粘貼” 按鈕,單擊,選擇 “可刷新的Web查詢” 命令。
3.2? ? 手動輸入數據
? ? 快速設置單元格格式
我們直接輸入 “1/3” 單元格默認將它轉成日期格式,顯示成 “1月3號” ,但如果我們先輸入 “0+空格” ,再輸入 “1/3” 即可。
? ? 選中單元格,直接按 “F2” 鍵,則單元格就進入編輯模式。
? ? Ctrl+1 彈出設置單元格對話框。
? ? 省時省力的填充柄 “+”
? ? 讓 “0” 站首位
比如在錄入數據時,輸入 “007” ,但輸進去就變成 “7” ,如何解決。
上面的情況是Excel將輸入的值默認成數值類型的數據,如果在需要輸入的文本前面先輸一個英文的單引號 “ ' ” 字符,就默認成文本格式了,上述問題即可解決。這也是區分數字單元格是數值還是文本的標識。