機器學習 ChatGPT , DeepSeek, CLIP, DALL-E (持續整理)
1.架構區別
技術層級分類表(含時間軸)
模型 | 架構層 | 技術組件/中間層 | 基礎層 |
---|---|---|---|
ChatGPT | Transformer (2017) | 自注意力機制(2017)、位置編碼(2017) | 多層感知器(1958)、Softmax(1969)、反向傳播(1986) |
DeepSeek | 深度神經網絡(DNN) | CNN(1980/2012)+Transformer(2017) | 卷積核(1980)、全連接層(1958)、梯度下降(1951) |
CLIP | 雙模態架構 (2021) | Transformer(2017)、ResNet(2015) | 多頭注意力(2017)、殘差連接(2015)、MLP(1958) |
DALL-E | 生成式Transformer (2021) | 擴散模型(2015)、VQ-VAE(2017) | 卷積網絡(1980)、自回歸采樣(1990)、KL散度(1951) |
技術演進時間線(精選)
gantt
title 人工智能關鍵技術演進時間軸
dateFormat YYYY
axisFormat %Y
section 基礎技術
梯度下降 :1951, 1y
MLP :1958, 1y
CNN卷積核 :1980, 1y
section 突破性架構
Transformer :2017, 3y
ResNet :2015, 2y
VQ-VAE :2017, 2y
section 應用模型
CLIP :2021, 2y
DALL-E :2021, 2y
ChatGPT :2022, 2y
關鍵時間節點說明
- 梯度下降 (1951): 由H. Robbins和S. Monro提出最優化基礎算法
- MLP (1958): Frank Rosenblatt提出感知機原型
- CNN卷積核 (1980): Kunihiko Fukushima提出神經認知機原型
- ResNet (2015): 微軟研究院提出深度殘差學習框架
- Transformer (2017): Google《Attention Is All You Need》論文
- VQ-VAE (2017): DeepMind提出離散潛在空間表示方法
- 擴散模型 (2015): 理論提出,2020年后結合深度學習實現突破
- 自回歸采樣 (1990): 基于RNN的序列生成技術起源
2.字典
GPT (2018)
(全名:Chat Generative Pre-trained Transformer)生成式預訓練變換器,是一種大型語言模型(LLM),也是生成式人工智能的重要框架,首個GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神經網絡
Transformer模型 (2017)
是一種采用注意力機制的深度學習模型。Transformer模型于2017年由谷歌大腦的一個團隊推出,現已逐步取代長短期記憶(LSTM)等RNN模型成為了NLP問題的首選模型
RNN模型 Recurrent neural network (1986)
循環神經網絡(Recurrent neural network:RNN)是神經網絡的一種
**1982年,約翰·霍普菲爾德發現了Hopfield神經網絡——一種特殊的RNN
Hopfield神經網絡 (1982)
Hopfield網絡是一種結合存儲系統和二元系統的神經網絡
我們可以將神經元比作一個“開關”,而整個 Hopfield 網絡就像一個“燈光控制系統”
1. 網絡結構
在 Hopfield 網絡中,有很多小“開關”,每個開關代表一個神經元。我們用 \( s_i \) 來表示這些開關的狀態,\( s_i \) 可以是 \( +1 \)(開)或 \( -1 \)(關)。
解釋:想象每個神經元就像一個房間里的燈光開關。每個開關可以是“開”(亮)或“關”(滅)。當開關打開時,房間里有光;當開關關閉時,房間里就黑暗
2. 能量函數
能量函數 \( E \) 就像是一個“評分系統”,用來判斷當前網絡狀態的好壞。公式中有兩個求和符號,表示我們要考慮每一對神經元之間的相互作用。
- 如果兩個神經元的狀態相同(都開或都關),它們的相互作用對能量是有利的,能量會降低。
- 如果兩個神經元的狀態不同(一個開,一個關),它們的相互作用會增加能量。
所以,網絡的目標就是讓這個能量 ( E ) 盡可能低,找到一個“最舒服”的狀態。
解釋:整個系統的目標是讓房間里的光線盡可能**均勻**和**舒適**。能量函數就像是一個“舒適度評分”,它會評估當前所有開關的狀態。系統會嘗試調整開關,降低這個評分,使房間里的光線更加和諧。
3. 權重的設置
在訓練階段,我們需要告訴網絡如何存儲信息。這個過程通過計算權重 ( w_{ij} ) 來實現,權重可以看作是神經元之間的“連接強度”。
- 這里的公式表示,我們要根據每個存儲的模式來計算這些權重。簡單來說,權重越大,兩個神經元之間的連接就越強,意味著它們的狀態會更容易相互影響。
解釋:不同的開關之間可能有電線連接(權重),這些連接的強度決定了一個開關對另一個開關的影響力。比如,某些開關的連接很強,打開一個開關可能會導致另一個開關也打開;而有些連接較弱,影響就小
4. 狀態更新
當我們輸入一個模糊的模式時,網絡會根據當前的狀態和權重來更新每個神經元的狀態。
- 首先,網絡會計算每個神經元的“凈輸入” ( h_i ),這就像是每個開關接收到的信號。
- 然后,根據這個信號來決定開關的狀態:
- 如果信號很強(( h_i > 0 )),開關就會打開(變為 ( +1 ))。
- 如果信號較弱(( h_i \leq 0 )),開關就會關閉(變為 ( -1 ))。
解釋:當你試圖打開某個房間的燈,但你不記得開關的位置時,你可能會嘗試不同的開關。這就像輸入一個模糊的模式,系統會根據當前的狀態和連接來判斷哪個開關應該打開
5. 收斂與輸出
網絡會不斷地進行狀態更新,直到所有的開關都不再變化,達到一個穩定的狀態。在這個狀態下,能量函數 ( E ) 達到最低點。
- 最后,網絡輸出的狀態 ( s ) 就是與輸入的模糊信息最接近的完整模式。
解釋:系統會不斷調整開關的狀態,直到所有開關都穩定下來,達到一個理想的光線狀態。這就像是你不斷試驗,最終找到最合適的開關組合,使得房間里的光線最為舒適。
總結
簡單來說,Hopfield 神經網絡就像一個智能的記憶機器。它通過計算能量來判斷當前狀態的好壞,設置連接強度來存儲信息,并根據輸入的模糊信號不斷調整狀態,最終幫助我們找回完整的信息。
解釋: 每個開關(神經元)通過電線(權重)相互影響,系統的目標是找到一個最舒適的光線狀態(最低能量),從而幫助我們在模糊情況下找到正確的開關組合(輸出模式)
問題
局部最優解 / 能量函數的形狀 / 初始狀態的影響
這樣一套系統可能會導致生成的解決方案導致燈光在局部是均勻的,等于是只找到某個區域的最優解,找到后這套系統就無法繼續去尋找全局的最優解了,有很強的區域局限性,而且很多時候,如果你一開始就選擇了某些開關為“亮”,系統可能會在這些狀態附近尋找解決方案,而忽視其他可能的組合
隨機重啟/模擬退火/遺傳算法/增強學習
隨機重啟:想象你在一個大房子里,試圖找到最佳的燈光組合。每次你開始時,隨機選擇一些開關的狀態(亮或滅)。這就像是每次重啟時,隨機選擇不同的開關組合,就會有更多的可能性
模擬退火:假設你在調節房間里的燈光,剛開始時你非常嚴格,只允許開關變亮。但隨著時間推移,你變得更寬松,允許某些開關暫時變暗,即使這樣可能讓光線變得不均勻
遺傳算法:想象你有多個房間,每個房間的燈光組合都是一個“個體”。你可以選擇一些效果最好的房間組合(“父母”),然后將它們的開關狀態混合(交叉),再添加一些隨機的變化(變異),形成新的燈光組合(“后代”)
增強學習: 想象你在控制燈光的過程中,逐漸學習哪些開關組合產生最佳的光線效果。每次調整后,你會記住哪些組合讓房間感覺更舒適(獎勵),哪些組合讓房間不適(懲罰)
LSTM Long Short-Term Memory (1997)
是一種時間循環神經網絡(RNN),論文首次發表于1997年。由于獨特的設計結構,LSTM適合于處理和預測時間序列中間隔和延遲非常長的重要事件
同樣我們把這個神經網絡也類比成燈光控制系統,想象一個智能家居系統,能夠根據時間、天氣、用戶習慣等因素自動調整房間的燈光。這個系統需要記住過去的光線設置,以便在未來做出更好的決策
LSTM 網絡主要由以下幾個部分組成:
- 輸入門:決定哪些新信息需要被存儲。
- 遺忘門:決定哪些舊信息需要被丟棄。
- 輸出門:決定當前的輸出。
- 細胞狀態:代表長期記憶。
1. 輸入門(Input Gate)
公式:
解釋:
- 這里的 (x_t) 可以看作當前的環境信息(如時間、天氣等),而 (h_{t-1}) 是之前的狀態(如之前的燈光設置)。
- 輸入門 (i_t) 決定了哪些新的環境信息需要被接納并影響燈光設置。
2. 遺忘門(Forget Gate)
公式:
解釋:
- 遺忘門 (f_t) 決定了哪些舊的燈光設置需要被遺忘。比如,如果天氣變晴,系統可能會決定忘記之前的昏暗設置。
3. 細胞狀態(Cell State)
公式:
解釋:
- 細胞狀態 (C_t) 代表系統的長期記憶。它結合了之前的狀態 (C_{t-1})(之前的燈光設置)和新的信息(當前環境的影響)。
- (\tilde{C_t}) 是候選值,代表新的燈光設置。這個值通過某種方式計算得出,反映了當前環境的影響。
4. 輸出門(Output Gate)
公式:
解釋:
- 輸出門 (o_t) 決定了當前的燈光設置。它根據當前的狀態和輸入信息,控制實際的燈光開關。
5. 最終輸出
公式:
解釋:
- 最終的輸出 (h_t) 代表當前的燈光設置。通過輸出門的控制,結合細胞狀態,系統決定了具體的燈光亮度和開關狀態。
總結
燈光控制系統通過輸入門、遺忘門、細胞狀態和輸出門的協調工作,動態調整燈光設置,正如LSTM在處理序列數據時,通過這些門控機制有效地管理信息和記憶。這種類比幫助我們更直觀地理解LSTM在時間序列預測和其他任務中的應用。
問題
梯度消失和爆炸
- 問題:在長序列中,梯度可能消失或爆炸,導致訓練不穩定。
- 解釋:想象一個燈光控制系統,如果環境變化(如光照變化)過于劇烈,控制信號可能會失去效用(消失)或過于強烈(爆炸),導致燈光效果不穩定。
- 解決方案
- 梯度裁剪:在信號過強時限制控制信號的強度,保持燈光效果穩定。
- 使用更深的網絡:通過增加燈光控制系統的傳感器層次,使其更準確地響應環境變化。
計算復雜度
- 問題:LSTM的復雜結構導致計算量大,訓練時間較長。
- 解釋:一個復雜的燈光控制系統需要多個傳感器和控制單元,可能導致響應時間變慢。
- 解決方案
- 模型簡化:減少傳感器數量或控制單元,簡化燈光控制邏輯。
- 并行計算:利用多個控制單元同時處理信號,提高響應速度。
超參數調節
- 問題:LSTM有許多超參數,調節困難且耗時。
- ****解釋::在燈光控制系統中,需調節多個參數(如亮度、色溫、開關時間等),這需要大量實驗來找到最佳設置。
- 解決方案
- 自動化調節:使用智能算法自動尋找最佳燈光設置,減少人工調節的時間。
- 交叉驗證:在不同環境下測試燈光設置,確保在各種情況下都能達到最佳效果。
長序列依賴問題
- 問題:LSTM在捕捉遠距離依賴關系方面可能表現不佳。
- 解釋:如果燈光控制系統只依賴最近的環境信息,可能無法有效應對長期變化(如季節變化)。
- 解決方案
- 層次化模型:通過分層控制系統,分別處理短期和長期的環境變化。
- 注意力機制:引入智能算法,讓燈光系統關注重要的環境變化,而不是僅僅依賴最近的信息。
過擬合
- 問題:在小數據集上訓練時,LSTM容易過擬合。
- 解釋:燈光控制系統在特定環境下表現良好,但在新的環境中可能無法適應。
- 解決方案
- 正則化:通過設置限制,確保燈光控制系統不會過于依賴于特定的環境輸入。
- 數據增強:模擬多種環境條件,增加訓練數據的多樣性,使系統更具適應性。
- 提前停止:監控燈光控制系統在不同環境下的表現,及時調整設置以防止過擬合。
GRU Gated Recurrent Unit (2014)
GRU(Gated Recurrent Unit)是一種對 LSTM 稍微改進的循環神經網絡,由 Cho 等人(2014年)提出。它將遺忘門和輸入門合并成一個單一的“更新門”,同時將 cell state 和隱藏狀態合并,并進行了其他一些改動。GRU模型相對于標準的 LSTM 模型來說更加簡單,并且越來越受到廣泛關注和應用
1. 結構復雜性
-
LSTM:
- 解釋:想象一個復雜的燈光控制系統,包含多個傳感器和控制單元。每個控制單元都有多個開關和調節器,以管理不同的燈光參數(如亮度、色溫、開關狀態等)。
- 特點:LSTM有三個門(輸入門、遺忘門和輸出門),使其能夠精確地控制信息的流動和保留。
-
GRU:
- 解釋:相比之下,GRU就像一個更簡化的燈光控制系統,只有兩個主要控制單元(重置門和更新門)。這個系統仍然能夠有效地調節燈光,但結構更簡單。
- 特點:GRU將輸入門和遺忘門合并為更新門,簡化了信息處理的流程。
2. 信息處理
-
LSTM:
- 解釋:LSTM能夠根據環境變化進行復雜的燈光調節,比如在不同的時間段(白天、夜晚)或不同的場景(聚會、安靜時光)中,靈活調整燈光效果。
- 特點:LSTM通過多個門的組合,能夠更細致地控制信息的保留和遺忘。
-
GRU:
- 解釋:GRU雖然簡化了控制邏輯,但仍然能夠根據環境變化調整燈光。例如,它可以在白天和夜晚之間快速切換燈光設置,但可能在復雜場景下的調節不如LSTM靈活。
- 特點:GRU通過重置門和更新門的組合,能夠有效處理信息,但在處理復雜依賴時可能不如LSTM細致。
3. 訓練效率
-
LSTM:
- 解釋:由于其復雜性,LSTM的燈光控制系統在調整時可能需要更多的時間和資源,尤其是在復雜場景下。
- 特點:LSTM的訓練和調節通常需要更多的計算資源和時間。
-
GRU:
- 解釋:GRU的燈光控制系統由于結構簡單,可以更快地響應環境變化,調節效率更高。
- 特點:GRU通常訓練速度更快,計算資源消耗較少,適合快速響應的應用。
4. 性能與適用場景
-
LSTM:
- 解釋:在需要復雜調節和長時間依賴的場景(如智能家居系統中,燈光與其他設備的聯動)中,LSTM表現更為出色。
- 特點:適合處理長序列和復雜依賴關系的任務。
-
GRU:
- 解釋:在需要快速響應和較少復雜性的場景中(如簡單的定時開關燈光),GRU會更有效。
- 特點:適合處理短序列或較少復雜性的任務。
總結
我們可以看到LSTM和GRU在結構復雜性、信息處理能力、訓練效率和適用場景等方面的區別。LSTM適合需要復雜調節的場景,而GRU則在快速響應和簡單調節方面表現更佳。這種對比有助于理解在不同任務中選擇合適模型的重要性。