數據分析必須要有數據,從明確分析目的和思路、到數據收集、再到數據處理、之后的數據分析都離不開數據。
在我們做數據收集時:
首先要理解數據;
其次要清楚數據的來源。
一、數據理解
對數據的理解,能夠幫助我們清晰地認識到數據分析對數據有什么要求。
1.1、字段與記錄
數據由字段與記錄共同組合而成。從數據分析的角度來理解字段和記錄的概念:
?字段是事物或現象的某種特征。例如學生成績表中的姓名,學號,語文,數學,英語等都是字段。在統計學中稱為變量。
?記錄是事物或現象某種特征的具體表現。例如學生成績表中的。比如學生成績表中姓名可以是張三或李四。記錄也稱為數據或變量值。
1.2、數據類型
數據類型分為:字符型數據和數值型數據。常見的數據類型有:數值、文本、日期、貨幣、會計專用、時間、百分比、分數、科學計數、特殊等
?字符型數據不具有計算能力的文字數據類型。它包括中文字符,英文字符,數字字符(非數值型)等字符。
?數值型數據是直接使用自然數或度量單位進行計量的數值數據。對于數值型數據,可以直接用算術方法進行匯總和分析。
1.3、數據表
數據表由字段、記錄和數據類型構成。
數據表的設計是否合理,關系著后期數據分析的效率及深度。
數據表設計有如下6條要求:
1)、數據表由標題行和數據部分組成
2)、第一行是表的列標題(字段名),列標題不能重復
3)、第二行起是數據部分,數據部分的每一行數據稱為一個記錄,并且數據部分不允許出現空白行和空白列
4)、數據表中不能有合并單元格存在
5)、數據表與其他數據之間應該留出至少一個空白行和一個空白列
6)、數據表需要以一維的形式存儲,但是在實際操作中接觸的數據往往是以二維表格的形式存在等,此時應將二維表轉化為一維表的形式存儲數據。
什么是一維表,什么是二維表?
一維表的第一行列標題都是字符型字段。
二維表的第一行列標題包含是數值型字段。
如何將二維表轉化為一維表?
在使用Excel轉換過程中,我們要用到數據透視表中的“數據透視表和數據透視圖向導”功能。操作步驟如下
二、數據來源
獲取數據的方式可以分為兩種:導入外部數據和自己錄入數據。
2.1導入數據
導入的外部數據最常見的來源有兩種:文本和網站數據來源。
1)、文本數據是比較常見的數據來源,那么如何將文本文件導入Excel呢?
導入文本數據的具體操作:
數據→導入數據→選擇數據文件(下一步)→設置數據分隔(下一步)→下一步→完成
2)、自動導入網站數據,方法如上。
2.2問卷調查錄入
數值題:錄入相應數值
單選題:錄入時采用1234分別代表ABCD四個選項,錄入對應數字即可。
多選題:方法如上類似
排序題:先用123456定義選項ABCDEF,然后按照順序錄入。
開放性文字題:首先歸類編碼換成多選題,如不能就對這類問題直接做定性分析。