箱線圖和IQR
箱線圖(Box Plot):是由一組數據的最大值(maximum),最小值(minimum),中位數(median),兩個四分位數(quartiles)這五個特征值繪制而成的,它主要用于反映原始數據分布的特征,還可以進行多組數據分布特征的比較。
四分位距(interquartile range,IQR):又稱四分差,是第三四分位數和第一四分位數之間的距離。其計算公式為:
四分位距反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。
離群值(Outlier):是指數據中一個或幾個數值與其他數值相比差異較大的值。可以通過IQR來識別離群值,我們可以定義離群值以外的觀測值范圍為:
方差與標準差
方差(Varlance):是各變量值與其平均數離散差平方的平均數。計算公式為
標準差(Standard Deviation):方差的平方根
在正態分布中,65%的數據介于均值減去一個標準差和均值加上一個標準差之間,95%的數據介于均值減去兩個標準差和均值加上兩個標準差之間,99.7%的數據介于均值減去3個標準差和均值加上三個標準差之間。
貝塞爾校正(Bessel's Correction):在統計學中,貝塞爾校正是在樣本的方差和標準差的公式中用n-1來代替n。這個方法校正了樣本方差/樣本標準差,與總體方差/樣本標準差之間的誤差。即樣本方差公式為:
image.png