機器學習 ChatGPT , DeepSeek, CLIP, DALL-E (持續整理)

機器學習 ChatGPT , DeepSeek, CLIP, DALL-E (持續整理)

1.架構區別

技術層級分類表(含時間軸)

模型 架構層 技術組件/中間層 基礎層
ChatGPT Transformer (2017) 自注意力機制(2017)、位置編碼(2017) 多層感知器(1958)、Softmax(1969)、反向傳播(1986)
DeepSeek 深度神經網絡(DNN) CNN(1980/2012)+Transformer(2017) 卷積核(1980)、全連接層(1958)、梯度下降(1951)
CLIP 雙模態架構 (2021) Transformer(2017)、ResNet(2015) 多頭注意力(2017)、殘差連接(2015)、MLP(1958)
DALL-E 生成式Transformer (2021) 擴散模型(2015)、VQ-VAE(2017) 卷積網絡(1980)、自回歸采樣(1990)、KL散度(1951)

技術演進時間線(精選)

gantt
    title 人工智能關鍵技術演進時間軸
    dateFormat  YYYY
    axisFormat %Y
    
    section 基礎技術
    梯度下降        :1951, 1y
    MLP            :1958, 1y
    CNN卷積核       :1980, 1y
    
    section 突破性架構
    Transformer    :2017, 3y
    ResNet         :2015, 2y
    VQ-VAE         :2017, 2y
    
    section 應用模型
    CLIP           :2021, 2y
    DALL-E         :2021, 2y
    ChatGPT        :2022, 2y

關鍵時間節點說明

  1. 梯度下降 (1951): 由H. Robbins和S. Monro提出最優化基礎算法
  2. MLP (1958): Frank Rosenblatt提出感知機原型
  3. CNN卷積核 (1980): Kunihiko Fukushima提出神經認知機原型
  4. ResNet (2015): 微軟研究院提出深度殘差學習框架
  5. Transformer (2017): Google《Attention Is All You Need》論文
  6. VQ-VAE (2017): DeepMind提出離散潛在空間表示方法
  7. 擴散模型 (2015): 理論提出,2020年后結合深度學習實現突破
  8. 自回歸采樣 (1990): 基于RNN的序列生成技術起源

2.字典

GPT (2018)

(全名:Chat Generative Pre-trained Transformer)生成式預訓練變換器,是一種大型語言模型(LLM),也是生成式人工智能的重要框架,首個GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神經網絡

Transformer模型 (2017)

是一種采用注意力機制的深度學習模型。Transformer模型于2017年由谷歌大腦的一個團隊推出,現已逐步取代長短期記憶(LSTM)等RNN模型成為了NLP問題的首選模型

RNN模型 Recurrent neural network (1986)

循環神經網絡(Recurrent neural network:RNN)是神經網絡的一種

**1982年,約翰·霍普菲爾德發現了Hopfield神經網絡——一種特殊的RNN

Hopfield神經網絡 (1982)

Hopfield網絡是一種結合存儲系統和二元系統的神經網絡

我們可以將神經元比作一個“開關”,而整個 Hopfield 網絡就像一個“燈光控制系統”

1. 網絡結構

在 Hopfield 網絡中,有很多小“開關”,每個開關代表一個神經元。我們用 \( s_i \) 來表示這些開關的狀態,\( s_i \) 可以是 \( +1 \)(開)或 \( -1 \)(關)。

解釋:想象每個神經元就像一個房間里的燈光開關。每個開關可以是“開”(亮)或“關”(滅)。當開關打開時,房間里有光;當開關關閉時,房間里就黑暗

2. 能量函數

能量函數 \( E \) 就像是一個“評分系統”,用來判斷當前網絡狀態的好壞。公式中有兩個求和符號,表示我們要考慮每一對神經元之間的相互作用。

E = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_j

  • 如果兩個神經元的狀態相同(都開或都關),它們的相互作用對能量是有利的,能量會降低。
  • 如果兩個神經元的狀態不同(一個開,一個關),它們的相互作用會增加能量。

所以,網絡的目標就是讓這個能量 ( E ) 盡可能低,找到一個“最舒服”的狀態。

解釋:整個系統的目標是讓房間里的光線盡可能**均勻**和**舒適**。能量函數就像是一個“舒適度評分”,它會評估當前所有開關的狀態。系統會嘗試調整開關,降低這個評分,使房間里的光線更加和諧。

3. 權重的設置

在訓練階段,我們需要告訴網絡如何存儲信息。這個過程通過計算權重 ( w_{ij} ) 來實現,權重可以看作是神經元之間的“連接強度”。

w_{ij} = \frac{1}{p} \sum_{\mu=1}^{p} s_i^{\mu} s_j^{\mu}

  • 這里的公式表示,我們要根據每個存儲的模式來計算這些權重。簡單來說,權重越大,兩個神經元之間的連接就越強,意味著它們的狀態會更容易相互影響。

解釋:不同的開關之間可能有電線連接(權重),這些連接的強度決定了一個開關對另一個開關的影響力。比如,某些開關的連接很強,打開一個開關可能會導致另一個開關也打開;而有些連接較弱,影響就小

4. 狀態更新

當我們輸入一個模糊的模式時,網絡會根據當前的狀態和權重來更新每個神經元的狀態。

  • 首先,網絡會計算每個神經元的“凈輸入” ( h_i ),這就像是每個開關接收到的信號。

h_i = \sum_{j} w_{ij} s_j

  • 然后,根據這個信號來決定開關的狀態:
    • 如果信號很強(( h_i > 0 )),開關就會打開(變為 ( +1 ))。
    • 如果信號較弱(( h_i \leq 0 )),開關就會關閉(變為 ( -1 ))。

解釋:當你試圖打開某個房間的燈,但你不記得開關的位置時,你可能會嘗試不同的開關。這就像輸入一個模糊的模式,系統會根據當前的狀態和連接來判斷哪個開關應該打開

5. 收斂與輸出

網絡會不斷地進行狀態更新,直到所有的開關都不再變化,達到一個穩定的狀態。在這個狀態下,能量函數 ( E ) 達到最低點。

  • 最后,網絡輸出的狀態 ( s ) 就是與輸入的模糊信息最接近的完整模式。

解釋:系統會不斷調整開關的狀態,直到所有開關都穩定下來,達到一個理想的光線狀態。這就像是你不斷試驗,最終找到最合適的開關組合,使得房間里的光線最為舒適。

總結

簡單來說,Hopfield 神經網絡就像一個智能的記憶機器。它通過計算能量來判斷當前狀態的好壞,設置連接強度來存儲信息,并根據輸入的模糊信號不斷調整狀態,最終幫助我們找回完整的信息。

解釋: 每個開關(神經元)通過電線(權重)相互影響,系統的目標是找到一個最舒適的光線狀態(最低能量),從而幫助我們在模糊情況下找到正確的開關組合(輸出模式)

問題

局部最優解 / 能量函數的形狀 / 初始狀態的影響

這樣一套系統可能會導致生成的解決方案導致燈光在局部是均勻的,等于是只找到某個區域的最優解,找到后這套系統就無法繼續去尋找全局的最優解了,有很強的區域局限性,而且很多時候,如果你一開始就選擇了某些開關為“亮”,系統可能會在這些狀態附近尋找解決方案,而忽視其他可能的組合

隨機重啟/模擬退火/遺傳算法/增強學習

隨機重啟:想象你在一個大房子里,試圖找到最佳的燈光組合。每次你開始時,隨機選擇一些開關的狀態(亮或滅)。這就像是每次重啟時,隨機選擇不同的開關組合,就會有更多的可能性

模擬退火:假設你在調節房間里的燈光,剛開始時你非常嚴格,只允許開關變亮。但隨著時間推移,你變得更寬松,允許某些開關暫時變暗,即使這樣可能讓光線變得不均勻

遺傳算法:想象你有多個房間,每個房間的燈光組合都是一個“個體”。你可以選擇一些效果最好的房間組合(“父母”),然后將它們的開關狀態混合(交叉),再添加一些隨機的變化(變異),形成新的燈光組合(“后代”)

增強學習: 想象你在控制燈光的過程中,逐漸學習哪些開關組合產生最佳的光線效果。每次調整后,你會記住哪些組合讓房間感覺更舒適(獎勵),哪些組合讓房間不適(懲罰)

LSTM Long Short-Term Memory (1997)

是一種時間循環神經網絡(RNN),論文首次發表于1997年。由于獨特的設計結構,LSTM適合于處理和預測時間序列中間隔和延遲非常長的重要事件

同樣我們把這個神經網絡也類比成燈光控制系統,想象一個智能家居系統,能夠根據時間、天氣、用戶習慣等因素自動調整房間的燈光。這個系統需要記住過去的光線設置,以便在未來做出更好的決策

LSTM 網絡主要由以下幾個部分組成:

  • 輸入門:決定哪些新信息需要被存儲。
  • 遺忘門:決定哪些舊信息需要被丟棄。
  • 輸出門:決定當前的輸出。
  • 細胞狀態:代表長期記憶。

1. 輸入門(Input Gate)

公式
i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)

解釋

  • 這里的 (x_t) 可以看作當前的環境信息(如時間、天氣等),而 (h_{t-1}) 是之前的狀態(如之前的燈光設置)。
  • 輸入門 (i_t) 決定了哪些新的環境信息需要被接納并影響燈光設置。

2. 遺忘門(Forget Gate)

公式
f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)

解釋

  • 遺忘門 (f_t) 決定了哪些舊的燈光設置需要被遺忘。比如,如果天氣變晴,系統可能會決定忘記之前的昏暗設置。

3. 細胞狀態(Cell State)

公式
C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}

解釋

  • 細胞狀態 (C_t) 代表系統的長期記憶。它結合了之前的狀態 (C_{t-1})(之前的燈光設置)和新的信息(當前環境的影響)。
  • (\tilde{C_t}) 是候選值,代表新的燈光設置。這個值通過某種方式計算得出,反映了當前環境的影響。

4. 輸出門(Output Gate)

公式
o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)

解釋

  • 輸出門 (o_t) 決定了當前的燈光設置。它根據當前的狀態和輸入信息,控制實際的燈光開關。

5. 最終輸出

公式
h_t = o_t \cdot \tanh(C_t)

解釋

  • 最終的輸出 (h_t) 代表當前的燈光設置。通過輸出門的控制,結合細胞狀態,系統決定了具體的燈光亮度和開關狀態。

總結

燈光控制系統通過輸入門、遺忘門、細胞狀態和輸出門的協調工作,動態調整燈光設置,正如LSTM在處理序列數據時,通過這些門控機制有效地管理信息和記憶。這種類比幫助我們更直觀地理解LSTM在時間序列預測和其他任務中的應用。

問題

梯度消失和爆炸
  • 問題:在長序列中,梯度可能消失或爆炸,導致訓練不穩定。
  • 解釋:想象一個燈光控制系統,如果環境變化(如光照變化)過于劇烈,控制信號可能會失去效用(消失)或過于強烈(爆炸),導致燈光效果不穩定。
  • 解決方案
    • 梯度裁剪:在信號過強時限制控制信號的強度,保持燈光效果穩定。
    • 使用更深的網絡:通過增加燈光控制系統的傳感器層次,使其更準確地響應環境變化。
計算復雜度
  • 問題:LSTM的復雜結構導致計算量大,訓練時間較長。
  • 解釋:一個復雜的燈光控制系統需要多個傳感器和控制單元,可能導致響應時間變慢。
  • 解決方案
    • 模型簡化:減少傳感器數量或控制單元,簡化燈光控制邏輯。
    • 并行計算:利用多個控制單元同時處理信號,提高響應速度。
超參數調節
  • 問題:LSTM有許多超參數,調節困難且耗時。
  • ****解釋:在燈光控制系統中,需調節多個參數(如亮度、色溫、開關時間等),這需要大量實驗來找到最佳設置。
  • 解決方案
    • 自動化調節:使用智能算法自動尋找最佳燈光設置,減少人工調節的時間。
    • 交叉驗證:在不同環境下測試燈光設置,確保在各種情況下都能達到最佳效果。
長序列依賴問題
  • 問題:LSTM在捕捉遠距離依賴關系方面可能表現不佳。
  • 解釋:如果燈光控制系統只依賴最近的環境信息,可能無法有效應對長期變化(如季節變化)。
  • 解決方案
    • 層次化模型:通過分層控制系統,分別處理短期和長期的環境變化。
    • 注意力機制:引入智能算法,讓燈光系統關注重要的環境變化,而不是僅僅依賴最近的信息。
過擬合
  • 問題:在小數據集上訓練時,LSTM容易過擬合。
  • 解釋:燈光控制系統在特定環境下表現良好,但在新的環境中可能無法適應。
  • 解決方案
    • 正則化:通過設置限制,確保燈光控制系統不會過于依賴于特定的環境輸入。
    • 數據增強:模擬多種環境條件,增加訓練數據的多樣性,使系統更具適應性。
    • 提前停止:監控燈光控制系統在不同環境下的表現,及時調整設置以防止過擬合。

GRU Gated Recurrent Unit (2014)

GRU(Gated Recurrent Unit)是一種對 LSTM 稍微改進的循環神經網絡,由 Cho 等人(2014年)提出。它將遺忘門和輸入門合并成一個單一的“更新門”,同時將 cell state 和隱藏狀態合并,并進行了其他一些改動。GRU模型相對于標準的 LSTM 模型來說更加簡單,并且越來越受到廣泛關注和應用

1. 結構復雜性

  • LSTM
    • 解釋:想象一個復雜的燈光控制系統,包含多個傳感器和控制單元。每個控制單元都有多個開關和調節器,以管理不同的燈光參數(如亮度、色溫、開關狀態等)。
    • 特點:LSTM有三個門(輸入門、遺忘門和輸出門),使其能夠精確地控制信息的流動和保留。
  • GRU
    • 解釋:相比之下,GRU就像一個更簡化的燈光控制系統,只有兩個主要控制單元(重置門和更新門)。這個系統仍然能夠有效地調節燈光,但結構更簡單。
    • 特點:GRU將輸入門和遺忘門合并為更新門,簡化了信息處理的流程。

2. 信息處理

  • LSTM
    • 解釋:LSTM能夠根據環境變化進行復雜的燈光調節,比如在不同的時間段(白天、夜晚)或不同的場景(聚會、安靜時光)中,靈活調整燈光效果。
    • 特點:LSTM通過多個門的組合,能夠更細致地控制信息的保留和遺忘。
  • GRU
    • 解釋:GRU雖然簡化了控制邏輯,但仍然能夠根據環境變化調整燈光。例如,它可以在白天和夜晚之間快速切換燈光設置,但可能在復雜場景下的調節不如LSTM靈活。
    • 特點:GRU通過重置門和更新門的組合,能夠有效處理信息,但在處理復雜依賴時可能不如LSTM細致。

3. 訓練效率

  • LSTM
    • 解釋:由于其復雜性,LSTM的燈光控制系統在調整時可能需要更多的時間和資源,尤其是在復雜場景下。
    • 特點:LSTM的訓練和調節通常需要更多的計算資源和時間。
  • GRU
    • 解釋:GRU的燈光控制系統由于結構簡單,可以更快地響應環境變化,調節效率更高。
    • 特點:GRU通常訓練速度更快,計算資源消耗較少,適合快速響應的應用。

4. 性能與適用場景

  • LSTM
    • 解釋:在需要復雜調節和長時間依賴的場景(如智能家居系統中,燈光與其他設備的聯動)中,LSTM表現更為出色。
    • 特點:適合處理長序列和復雜依賴關系的任務。
  • GRU
    • 解釋:在需要快速響應和較少復雜性的場景中(如簡單的定時開關燈光),GRU會更有效。
    • 特點:適合處理短序列或較少復雜性的任務。

總結

我們可以看到LSTM和GRU在結構復雜性、信息處理能力、訓練效率和適用場景等方面的區別。LSTM適合需要復雜調節的場景,而GRU則在快速響應和簡單調節方面表現更佳。這種對比有助于理解在不同任務中選擇合適模型的重要性。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內容