機器學習 ChatGPT , DeepSeek, CLIP, DALL-E （持續整理）

1.架構區別

技術層級分類表（含時間軸）

模型	架構層	技術組件/中間層	基礎層
ChatGPT	Transformer (2017)	自注意力機制(2017)、位置編碼(2017)	多層感知器(1958)、Softmax(1969)、反向傳播(1986)
DeepSeek	深度神經網絡（DNN）	CNN(1980/2012)+Transformer(2017)	卷積核(1980)、全連接層(1958)、梯度下降(1951)
CLIP	雙模態架構 (2021)	Transformer(2017)、ResNet(2015)	多頭注意力(2017)、殘差連接(2015)、MLP(1958)
DALL-E	生成式Transformer (2021)	擴散模型(2015)、VQ-VAE(2017)	卷積網絡(1980)、自回歸采樣(1990)、KL散度(1951)

技術演進時間線（精選）

gantt
    title 人工智能關鍵技術演進時間軸
    dateFormat  YYYY
    axisFormat %Y
    
    section 基礎技術
    梯度下降        :1951, 1y
    MLP            :1958, 1y
    CNN卷積核       :1980, 1y
    
    section 突破性架構
    Transformer    :2017, 3y
    ResNet         :2015, 2y
    VQ-VAE         :2017, 2y
    
    section 應用模型
    CLIP           :2021, 2y
    DALL-E         :2021, 2y
    ChatGPT        :2022, 2y

關鍵時間節點說明

梯度下降 (1951): 由H. Robbins和S. Monro提出最優化基礎算法
MLP (1958): Frank Rosenblatt提出感知機原型
CNN卷積核 (1980): Kunihiko Fukushima提出神經認知機原型
ResNet (2015): 微軟研究院提出深度殘差學習框架
Transformer (2017): Google《Attention Is All You Need》論文
VQ-VAE (2017): DeepMind提出離散潛在空間表示方法
擴散模型 (2015): 理論提出，2020年后結合深度學習實現突破
自回歸采樣 (1990): 基于RNN的序列生成技術起源

2.字典

GPT （2018）

（全名：Chat Generative Pre-trained Transformer）生成式預訓練變換器，是一種大型語言模型（LLM），也是生成式人工智能的重要框架,首個GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神經網絡

Transformer模型（2017）

是一種采用注意力機制的深度學習模型。Transformer模型于2017年由谷歌大腦的一個團隊推出，現已逐步取代長短期記憶（LSTM）等RNN模型成為了NLP問題的首選模型

RNN模型 Recurrent neural network (1986)

循環神經網絡（Recurrent neural network：RNN）是神經網絡的一種

**1982年，約翰·霍普菲爾德發現了Hopfield神經網絡——一種特殊的RNN

Hopfield神經網絡（1982）

Hopfield網絡是一種結合存儲系統和二元系統的神經網絡

我們可以將神經元比作一個“開關”，而整個 Hopfield 網絡就像一個“燈光控制系統”

1. 網絡結構

在 Hopfield 網絡中，有很多小“開關”，每個開關代表一個神經元。我們用 \( s_i \) 來表示這些開關的狀態，\( s_i \) 可以是 \( +1 \)（開）或 \( -1 \)（關）。

解釋：想象每個神經元就像一個房間里的燈光開關。每個開關可以是“開”（亮）或“關”（滅）。當開關打開時，房間里有光；當開關關閉時，房間里就黑暗

2. 能量函數

能量函數 \( E \) 就像是一個“評分系統”，用來判斷當前網絡狀態的好壞。公式中有兩個求和符號，表示我們要考慮每一對神經元之間的相互作用。

$E = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_j$

如果兩個神經元的狀態相同（都開或都關），它們的相互作用對能量是有利的，能量會降低。
如果兩個神經元的狀態不同（一個開，一個關），它們的相互作用會增加能量。

所以，網絡的目標就是讓這個能量 ( E ) 盡可能低，找到一個“最舒服”的狀態。

解釋：整個系統的目標是讓房間里的光線盡可能**均勻**和**舒適**。能量函數就像是一個“舒適度評分”，它會評估當前所有開關的狀態。系統會嘗試調整開關，降低這個評分，使房間里的光線更加和諧。

3. 權重的設置

在訓練階段，我們需要告訴網絡如何存儲信息。這個過程通過計算權重 ( w_{ij} ) 來實現，權重可以看作是神經元之間的“連接強度”。

$w_{ij} = \frac{1}{p} \sum_{\mu=1}^{p} s_i^{\mu} s_j^{\mu}$

這里的公式表示，我們要根據每個存儲的模式來計算這些權重。簡單來說，權重越大，兩個神經元之間的連接就越強，意味著它們的狀態會更容易相互影響。

解釋：不同的開關之間可能有電線連接（權重），這些連接的強度決定了一個開關對另一個開關的影響力。比如，某些開關的連接很強，打開一個開關可能會導致另一個開關也打開；而有些連接較弱，影響就小

4. 狀態更新

當我們輸入一個模糊的模式時，網絡會根據當前的狀態和權重來更新每個神經元的狀態。

首先，網絡會計算每個神經元的“凈輸入” ( h_i )，這就像是每個開關接收到的信號。

$h_i = \sum_{j} w_{ij} s_j$

然后，根據這個信號來決定開關的狀態：
- 如果信號很強（( h_i > 0 )），開關就會打開（變為 ( +1 )）。
- 如果信號較弱（( h_i \leq 0 )），開關就會關閉（變為 ( -1 )）。

解釋：當你試圖打開某個房間的燈，但你不記得開關的位置時，你可能會嘗試不同的開關。這就像輸入一個模糊的模式，系統會根據當前的狀態和連接來判斷哪個開關應該打開

5. 收斂與輸出

網絡會不斷地進行狀態更新，直到所有的開關都不再變化，達到一個穩定的狀態。在這個狀態下，能量函數 ( E ) 達到最低點。

最后，網絡輸出的狀態 ( s ) 就是與輸入的模糊信息最接近的完整模式。

解釋：系統會不斷調整開關的狀態，直到所有開關都穩定下來，達到一個理想的光線狀態。這就像是你不斷試驗，最終找到最合適的開關組合，使得房間里的光線最為舒適。

總結

簡單來說，Hopfield 神經網絡就像一個智能的記憶機器。它通過計算能量來判斷當前狀態的好壞，設置連接強度來存儲信息，并根據輸入的模糊信號不斷調整狀態，最終幫助我們找回完整的信息。

解釋：每個開關（神經元）通過電線（權重）相互影響，系統的目標是找到一個最舒適的光線狀態（最低能量），從而幫助我們在模糊情況下找到正確的開關組合（輸出模式）

問題

局部最優解 / 能量函數的形狀 / 初始狀態的影響

這樣一套系統可能會導致生成的解決方案導致燈光在局部是均勻的，等于是只找到某個區域的最優解，找到后這套系統就無法繼續去尋找全局的最優解了，有很強的區域局限性，而且很多時候，如果你一開始就選擇了某些開關為“亮”，系統可能會在這些狀態附近尋找解決方案，而忽視其他可能的組合

隨機重啟/模擬退火/遺傳算法/增強學習

隨機重啟：想象你在一個大房子里，試圖找到最佳的燈光組合。每次你開始時，隨機選擇一些開關的狀態（亮或滅）。這就像是每次重啟時，隨機選擇不同的開關組合，就會有更多的可能性

模擬退火：假設你在調節房間里的燈光，剛開始時你非常嚴格，只允許開關變亮。但隨著時間推移，你變得更寬松，允許某些開關暫時變暗，即使這樣可能讓光線變得不均勻

遺傳算法：想象你有多個房間，每個房間的燈光組合都是一個“個體”。你可以選擇一些效果最好的房間組合（“父母”），然后將它們的開關狀態混合（交叉），再添加一些隨機的變化（變異），形成新的燈光組合（“后代”）

增強學習: 想象你在控制燈光的過程中，逐漸學習哪些開關組合產生最佳的光線效果。每次調整后，你會記住哪些組合讓房間感覺更舒適（獎勵），哪些組合讓房間不適（懲罰）

LSTM Long Short-Term Memory （1997）

是一種時間循環神經網絡（RNN），論文首次發表于1997年。由于獨特的設計結構，LSTM適合于處理和預測時間序列中間隔和延遲非常長的重要事件

同樣我們把這個神經網絡也類比成燈光控制系統，想象一個智能家居系統，能夠根據時間、天氣、用戶習慣等因素自動調整房間的燈光。這個系統需要記住過去的光線設置，以便在未來做出更好的決策

LSTM 網絡主要由以下幾個部分組成：

輸入門：決定哪些新信息需要被存儲。
遺忘門：決定哪些舊信息需要被丟棄。
輸出門：決定當前的輸出。
細胞狀態：代表長期記憶。

1. 輸入門（Input Gate）

公式：
$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$

解釋：

這里的 (x_t) 可以看作當前的環境信息（如時間、天氣等），而 (h_{t-1}) 是之前的狀態（如之前的燈光設置）。
輸入門 (i_t) 決定了哪些新的環境信息需要被接納并影響燈光設置。

2. 遺忘門（Forget Gate）

公式：
$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

解釋：

遺忘門 (f_t) 決定了哪些舊的燈光設置需要被遺忘。比如，如果天氣變晴，系統可能會決定忘記之前的昏暗設置。

3. 細胞狀態（Cell State）

公式：
$C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}$

解釋：

細胞狀態 (C_t) 代表系統的長期記憶。它結合了之前的狀態 (C_{t-1})（之前的燈光設置）和新的信息（當前環境的影響）。
(\tilde{C_t}) 是候選值，代表新的燈光設置。這個值通過某種方式計算得出，反映了當前環境的影響。

4. 輸出門（Output Gate）

公式：
$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$

解釋：

輸出門 (o_t) 決定了當前的燈光設置。它根據當前的狀態和輸入信息，控制實際的燈光開關。

5. 最終輸出

公式：
$h_t = o_t \cdot \tanh(C_t)$

解釋：

最終的輸出 (h_t) 代表當前的燈光設置。通過輸出門的控制，結合細胞狀態，系統決定了具體的燈光亮度和開關狀態。

總結

燈光控制系統通過輸入門、遺忘門、細胞狀態和輸出門的協調工作，動態調整燈光設置，正如LSTM在處理序列數據時，通過這些門控機制有效地管理信息和記憶。這種類比幫助我們更直觀地理解LSTM在時間序列預測和其他任務中的應用。

問題

梯度消失和爆炸

問題：在長序列中，梯度可能消失或爆炸，導致訓練不穩定。
解釋：想象一個燈光控制系統，如果環境變化（如光照變化）過于劇烈，控制信號可能會失去效用（消失）或過于強烈（爆炸），導致燈光效果不穩定。
解決方案
- 梯度裁剪：在信號過強時限制控制信號的強度，保持燈光效果穩定。
- 使用更深的網絡：通過增加燈光控制系統的傳感器層次，使其更準確地響應環境變化。

計算復雜度

問題：LSTM的復雜結構導致計算量大，訓練時間較長。
解釋：一個復雜的燈光控制系統需要多個傳感器和控制單元，可能導致響應時間變慢。
解決方案
- 模型簡化：減少傳感器數量或控制單元，簡化燈光控制邏輯。
- 并行計算：利用多個控制單元同時處理信號，提高響應速度。

超參數調節

問題：LSTM有許多超參數，調節困難且耗時。
****解釋：：在燈光控制系統中，需調節多個參數（如亮度、色溫、開關時間等），這需要大量實驗來找到最佳設置。
解決方案
- 自動化調節：使用智能算法自動尋找最佳燈光設置，減少人工調節的時間。
- 交叉驗證：在不同環境下測試燈光設置，確保在各種情況下都能達到最佳效果。

長序列依賴問題

問題：LSTM在捕捉遠距離依賴關系方面可能表現不佳。
解釋：如果燈光控制系統只依賴最近的環境信息，可能無法有效應對長期變化（如季節變化）。
解決方案
- 層次化模型：通過分層控制系統，分別處理短期和長期的環境變化。
- 注意力機制：引入智能算法，讓燈光系統關注重要的環境變化，而不是僅僅依賴最近的信息。

過擬合

問題：在小數據集上訓練時，LSTM容易過擬合。
解釋：燈光控制系統在特定環境下表現良好，但在新的環境中可能無法適應。
解決方案
- 正則化：通過設置限制，確保燈光控制系統不會過于依賴于特定的環境輸入。
- 數據增強：模擬多種環境條件，增加訓練數據的多樣性，使系統更具適應性。
- 提前停止：監控燈光控制系統在不同環境下的表現，及時調整設置以防止過擬合。

GRU Gated Recurrent Unit (2014)

GRU（Gated Recurrent Unit）是一種對 LSTM 稍微改進的循環神經網絡，由 Cho 等人（2014年）提出。它將遺忘門和輸入門合并成一個單一的“更新門”，同時將 cell state 和隱藏狀態合并，并進行了其他一些改動。GRU模型相對于標準的 LSTM 模型來說更加簡單，并且越來越受到廣泛關注和應用

1. 結構復雜性

LSTM：
- 解釋：想象一個復雜的燈光控制系統，包含多個傳感器和控制單元。每個控制單元都有多個開關和調節器，以管理不同的燈光參數（如亮度、色溫、開關狀態等）。
- 特點：LSTM有三個門（輸入門、遺忘門和輸出門），使其能夠精確地控制信息的流動和保留。
GRU：
- 解釋：相比之下，GRU就像一個更簡化的燈光控制系統，只有兩個主要控制單元（重置門和更新門）。這個系統仍然能夠有效地調節燈光，但結構更簡單。
- 特點：GRU將輸入門和遺忘門合并為更新門，簡化了信息處理的流程。

2. 信息處理

LSTM：
- 解釋：LSTM能夠根據環境變化進行復雜的燈光調節，比如在不同的時間段（白天、夜晚）或不同的場景（聚會、安靜時光）中，靈活調整燈光效果。
- 特點：LSTM通過多個門的組合，能夠更細致地控制信息的保留和遺忘。
GRU：
- 解釋：GRU雖然簡化了控制邏輯，但仍然能夠根據環境變化調整燈光。例如，它可以在白天和夜晚之間快速切換燈光設置，但可能在復雜場景下的調節不如LSTM靈活。
- 特點：GRU通過重置門和更新門的組合，能夠有效處理信息，但在處理復雜依賴時可能不如LSTM細致。

3. 訓練效率

LSTM：
- 解釋：由于其復雜性，LSTM的燈光控制系統在調整時可能需要更多的時間和資源，尤其是在復雜場景下。
- 特點：LSTM的訓練和調節通常需要更多的計算資源和時間。
GRU：
- 解釋：GRU的燈光控制系統由于結構簡單，可以更快地響應環境變化，調節效率更高。
- 特點：GRU通常訓練速度更快，計算資源消耗較少，適合快速響應的應用。

4. 性能與適用場景

LSTM：
- 解釋：在需要復雜調節和長時間依賴的場景（如智能家居系統中，燈光與其他設備的聯動）中，LSTM表現更為出色。
- 特點：適合處理長序列和復雜依賴關系的任務。
GRU：
- 解釋：在需要快速響應和較少復雜性的場景中（如簡單的定時開關燈光），GRU會更有效。
- 特點：適合處理短序列或較少復雜性的任務。

總結

我們可以看到LSTM和GRU在結構復雜性、信息處理能力、訓練效率和適用場景等方面的區別。LSTM適合需要復雜調節的場景，而GRU則在快速響應和簡單調節方面表現更佳。這種對比有助于理解在不同任務中選擇合適模型的重要性。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,882評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,208評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,746評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,666評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,477評論 6贊 407
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,960評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,047評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,200評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,726評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,617評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,807評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,327評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,049評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,425評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,674評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,432評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,769評論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

機器學習 ChatGPT , DeepSeek, CLIP, DALL-E （持續整理）

機器學習 ChatGPT , DeepSeek, CLIP, DALL-E （持續整理）

1.架構區別

技術層級分類表（含時間軸）

技術演進時間線（精選）

關鍵時間節點說明

2.字典

GPT （2018）

Transformer模型 （2017）

RNN模型 Recurrent neural network (1986)

Hopfield神經網絡 （1982）

1. 網絡結構

2. 能量函數

3. 權重的設置

4. 狀態更新

5. 收斂與輸出

總結

問題

局部最優解 / 能量函數的形狀 / 初始狀態的影響

LSTM Long Short-Term Memory （1997）

1. 輸入門（Input Gate）

2. 遺忘門（Forget Gate）

3. 細胞狀態（Cell State）

4. 輸出門（Output Gate）

5. 最終輸出

總結

問題

梯度消失和爆炸

計算復雜度

超參數調節

長序列依賴問題

過擬合

GRU Gated Recurrent Unit (2014)

1. 結構復雜性

2. 信息處理

3. 訓練效率

4. 性能與適用場景

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Transformer模型（2017）

Hopfield神經網絡（1982）