- WHY
傳統時間序列聚類的缺點:
1)時間序列聚類的研究一般采用等長劃分,會丟失重要特征點,對聚類結果有負面影響。
2)采用時間序列測量值不能準確度量相似度。
如下埃博拉出血熱、衛生部在數值上很相似,但教育部和衛生部在形狀更相似。若是以形狀作為度量傳統的歐氏距離可能就不太合適了。
不等長時間序列滑窗STS聚類算法:
1)通過標準分數z_score預處理,消除時間序列觀測值數量級差異的影響。
2)更改了相似度計算的方式,采用基于滑窗的方法計算不等長序列的距離。
3)采用類k-means的聚類算法的中心曲線計算方法。
- WHAT
時間序列數據因其趨勢信息的直觀展現形式,廣泛應用于社交網絡、互聯網搜索和新聞媒體數據分析中。例如:Google應用搜索流感的相關信息的時間序列預測流感爆發趨勢。根據某話題熱度時間序列數據趨勢的規律性,通過聚類區分不同類型的時間序列數據。同一類簇的Twitter話題具有相同或相似的發展趨勢,進而應用于話題的發展趨勢的預測。
時間序列聚類算法可以分為兩類。
1)基于原始數據的時間序列聚類算法。
2)基于特征的時間序列聚類算法。
基于特征的時間序列聚類算法指根據原始數據從時間序列中提取形態特征(極值點位置、分段斜率)、結構特征(平均值、方差等統計值特征)、模型特征(模型的預測值),從而根據這些特征值進行聚類。這類方法的優點解決了不等長時間序列聚類問題,缺點是減弱了原始數據值得影響,聚類的形狀趨勢信息往往比較粗糙。
3. HOW
一、距離度量公式
STS距離計算的是累加時間序列間每個時間間隔斜率差的平方,公式
如上圖所示,g1、g2和g2、g3的歐式距離的數值更相近。g1、g2的STS距離大于g2、g3的數值。在形狀距離上,STS距離計算方式表現更好,一定程度上可以解決歐式距離度量時間序列局部特征信息確實和受觀測數值數量級差異影響大的問題,但是依舊無法度量不等長時間序列的距離。
基于滑窗的STS距離公式。
如上圖所示,當計算不同長度的時間序列的s和r的距離時,先不斷平移時間序列s,然后找到s和r距離最近的字段,就如同上圖虛線之間的位置,此時s和r距離最近,這個最近距離作為s和r之間的距離。
二、預處理過程
z-score標準分數用數據觀測值和觀測值平均值的距離代替原觀測值。z-score處理后的數據平均值為0,標準差為1。標準差的作用是統一量綱,去除數值的數量級差異影響。
總結
本論文提出了形狀距離的不等長時間序列的聚類方法。我們可以學到的有
1)z-score統一量綱,消除數值數量級差異,聚類效果更好。
2)計算x和y時間序列的STS距離,可以平移其中一個時間序列,求最小值作為STS距離值,這就消除了同一時間序列不同起始點的影響。