讀《不等長時間序列滑窗STS距離聚類算法》論文

  1. WHY

傳統時間序列聚類的缺點:

1)時間序列聚類的研究一般采用等長劃分,會丟失重要特征點,對聚類結果有負面影響。

2)采用時間序列測量值不能準確度量相似度。

image.png

如下埃博拉出血熱、衛生部在數值上很相似,但教育部和衛生部在形狀更相似。若是以形狀作為度量傳統的歐氏距離可能就不太合適了。

不等長時間序列滑窗STS聚類算法:

1)通過標準分數z_score預處理,消除時間序列觀測值數量級差異的影響。

2)更改了相似度計算的方式,采用基于滑窗的方法計算不等長序列的距離。

3)采用類k-means的聚類算法的中心曲線計算方法。

  1. WHAT

時間序列數據因其趨勢信息的直觀展現形式,廣泛應用于社交網絡、互聯網搜索和新聞媒體數據分析中。例如:Google應用搜索流感的相關信息的時間序列預測流感爆發趨勢。根據某話題熱度時間序列數據趨勢的規律性,通過聚類區分不同類型的時間序列數據。同一類簇的Twitter話題具有相同或相似的發展趨勢,進而應用于話題的發展趨勢的預測。

時間序列聚類算法可以分為兩類。

1)基于原始數據的時間序列聚類算法。

2)基于特征的時間序列聚類算法。

基于特征的時間序列聚類算法指根據原始數據從時間序列中提取形態特征(極值點位置、分段斜率)、結構特征(平均值、方差等統計值特征)、模型特征(模型的預測值),從而根據這些特征值進行聚類。這類方法的優點解決了不等長時間序列聚類問題,缺點是減弱了原始數據值得影響,聚類的形狀趨勢信息往往比較粗糙。

3. HOW

一、距離度量公式

STS距離計算的是累加時間序列間每個時間間隔斜率差的平方,公式


image.png

image.png

如上圖所示,g1、g2和g2、g3的歐式距離的數值更相近。g1、g2的STS距離大于g2、g3的數值。在形狀距離上,STS距離計算方式表現更好,一定程度上可以解決歐式距離度量時間序列局部特征信息確實和受觀測數值數量級差異影響大的問題,但是依舊無法度量不等長時間序列的距離。

基于滑窗的STS距離公式。


image.png

如上圖所示,當計算不同長度的時間序列的s和r的距離時,先不斷平移時間序列s,然后找到s和r距離最近的字段,就如同上圖虛線之間的位置,此時s和r距離最近,這個最近距離作為s和r之間的距離。


image.png

二、預處理過程

z-score標準分數用數據觀測值和觀測值平均值的距離代替原觀測值。z-score處理后的數據平均值為0,標準差為1。標準差的作用是統一量綱,去除數值的數量級差異影響。

總結

本論文提出了形狀距離的不等長時間序列的聚類方法。我們可以學到的有

1)z-score統一量綱,消除數值數量級差異,聚類效果更好。

2)計算x和y時間序列的STS距離,可以平移其中一個時間序列,求最小值作為STS距離值,這就消除了同一時間序列不同起始點的影響。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內容

  • 時間序列的聚類 張戎? 在機器學習領域,聚類問題一直是一個非常常見的問題。無論是在傳統的機器學習(Machine ...
    AIOPstack閱讀 7,446評論 0 1
  • 原文地址我在最近的工作中遇到了一個問題,問題是我需要根據銀行賬戶在一定時間內的使用信息對該賬戶在未來的一段時間是否...
    七相SIM閱讀 29,693評論 5 21
  • 本文比較了基于歐氏距離和DTW聚類對時間序列聚類和分類的可靠性。 從抽樣的樣本中發現了基于DTW聚類算法遠遠比基于...
    流浪在北京的蘋果閱讀 4,783評論 2 5
  • 時間序列異常檢測 本文總結了我在時間序列異常算法方面的一些經驗。讀者需要對常規機械學習算法有一定的了解。希望本文能...
    hzyido閱讀 19,933評論 7 24
  • 久違的晴天,家長會。 家長大會開好到教室時,離放學已經沒多少時間了。班主任說已經安排了三個家長分享經驗。 放學鈴聲...
    飄雪兒5閱讀 7,539評論 16 22