大模型系列：LLaMA大模型簡述和本地部署實踐

關鍵詞：大語言模型，LLaMA

內容摘要

LLaMA大模型背景介紹
LLaMA網絡結構相比Transformer的改進
LLaMA中文化Atom大模型簡述
在Python中調用HuggingFace LLaMA模型
基于text-generation-webui部署LLaMA問答平臺

LLaMA大模型背景介紹

LLaMA是Meta AI公司在2023年2月發布的開源大模型，在開放基準上有著非常出色的表現，是迄今為止最流行的開放語言模型之一。
同期谷歌的PaLM大模型，OpenAI的GPT-4都采用閉源的方式，不能從源碼來剖析模型的結構，LLaMA的開源降低了大模型的研究門檻，后續許多大模型都是借鑒或沿用了LLaMA的模型框架。另一方面由于LLaMA的開源，開發者可以將LLaMA作為基座模型進行本地部署搭建，用新的語料繼續預訓練或者微調，從而保證了數據的安全性不需要發送給第三方。

Meta AI公司羊駝大模型LLaMA

LLaMA網絡結構相比Transformer的改進

LLaMA和GPT系列一樣采用Transformer的堆疊Decoder，以上下文預測下一個詞作為預測目標，在海量文本上進行無監督預訓練。LLaMA的訓練語料是以英語為主的拉丁語系，在分詞方面，LLaMA采用sentencepiece實現的Byte-level BPE對語料進行分詞編碼。
和標準的Transformer相比，LLaMA借鑒了同期其他的研究成果對模型的局部結構進行了調整，包括

前置層歸一化+RMSNorm歸一化函數
門控線性單元和SwiGLU激活函數
旋轉位置編碼RoPE

1.前置層歸一化+RMSNorm歸一化函數

為了使模型訓練更加穩定，在Decoder單元將第一個層歸一化移動到多頭注意力之前，將第二個層歸一化移動到前饋傳播層之前，同時殘差連接位置調整到多頭注意力層和前饋傳播層之后，如下圖所示

前置層歸一化

在歸一化的計算方式上，采用RMSNorm函數，相比于標準的LayerNorm舍棄了均值的影響，是均值為0時LayerNorm的特例，使得計算變得簡單加快模型訓練和推理效率。

2.門控線性單元和SwiGLU激活函數

LLaMA采用門控線性單元GLU配合Swish激活函數，代替了標準transformer的前饋傳播層全連接+ReLU的結構，SwishGLU的形式在大部分測評中被證明比全連接+ReLU更加有效。SwiGLU的計算公式如下

SwiGLU公式

3.旋轉位置編碼RoPE

LLaMA采用旋轉位置編碼Rotary Position Embedding，RoPE的思想是找到一個變換將位置信息注入Query和Key向量中，這樣注意力中的Query和Key的內積計算能夠感知到兩者的相對位置距離，這個變換的求解結果對應為向量旋轉，因此取名為旋轉位置編碼。

旋轉位置編碼RoPE示意圖

LLaMA中文化Atom大模型簡述

LLaMA對中文的支持較差，訓練數據中中文占比很少，且詞表對中文字符的覆蓋度不夠，因此本篇采用Llama中文社區推出的原子大模型Atom，它基于LLaMA架構在中文語料上重新預訓練，并且拓充了詞表提高了模型對中文文本表征能力和編碼解碼速度，可在HuggingFace模型倉庫進行下載

Atom模型下載

在Python中調用HuggingFace LLaMA模型

根據中文LLaMA社區官網的案例快速開始，在Python中使用HuggingFace對Atom-7B進行調用測試如下

import torch
from transformers import AutoTokenizer, LlamaForCausalLM

model = LlamaForCausalLM.from_pretrained('./Atom-7B', torch_dtype=torch.float16)
model = model.to("cuda").eval()
tokenizer = AutoTokenizer.from_pretrained('./Atom-7B', use_fast=False)
tokenizer.pad_token = tokenizer.eos_token
input_ids = tokenizer(['<s>Human: 請給一個去蘇州旅游的攻略\n</s><s>Assistant: '], return_tensors="pt",
                      add_special_tokens=False).input_ids.to('cuda')
generate_input = {
    "input_ids": input_ids,
    "max_new_tokens": 512,
    "do_sample": True,
    "top_k": 50,
    "top_p": 0.95,
    "temperature": 0.3,
    "repetition_penalty": 1.3,
    "eos_token_id": tokenizer.eos_token_id,
    "bos_token_id": tokenizer.bos_token_id,
    "pad_token_id": tokenizer.pad_token_id
}
generate_ids = model.generate(**generate_input)
text = tokenizer.decode(generate_ids[0])
print(text)

將問題：“請給一個去蘇州旅游的攻略”拼入Human Assistant提示詞模板，文本生成如下

<s> Human: 請給一個去蘇州旅游的攻略
</s><s> Assistant: 1. 交通：建議乘坐高鐵或飛機前往，距離上海約2小時車程。也可以選擇自駕車或者公共汽車出行。
2. 住宿推薦：可以住在市中心的酒店、民宿等住宿設施中；也可以考慮在風景優美的郊區尋找合適的住所。
3. 推薦景點：拙政園（中國四大名園之一）、獅子林（園林藝術瑰寶）、留園（江南古典私家花園的典范）、虎丘塔（古代建筑和石刻藝術的代表）等等。
4. 建議游玩時間：5-7天為宜，每天安排一到兩個主要景區游覽即可。
5. 注意事項：帶好身份證件以及必要的證件如護照簽證等，注意天氣變化并攜帶雨具防曬用品等物品。遵守當地法律法規及風俗習慣和文化禁忌。尊重當地的文化傳統和環境保護意識。避免與當地人發生沖突或其他不愉快的事情。
6. 其他信息：了解一些關于蘇州的歷史文化和風土人情的知識是非常有益的。還可以參加一些本地的特色活動體驗一下當地的生活方式與文化氛圍。最后記得留下自己的旅行心得和經驗分享哦！
</s>

基于text-generation-webui部署LLaMA問答平臺

text-generation-webui是一個用于運行大型語言模型的Gradio Web用戶界面，他可以將本地的模型文件部署為一個Web服務，實現模型推理，問答對話，模型訓練，參數管理等功能。

github text-generation-webui項目

先通過anaconda創建Python虛擬環境

$ conda create -n textgen python=3.8
$ conda activate textgen

下載text-generation-webui項目到本地，安裝requirements中所需要的依賴

$ git clone https://github.com/oobabooga/text-generation-webui
$ cd text-generation-webui
$ pip install -r <requirements file according to table below>

安裝過程中可能會有各種版本不兼容的錯誤，逐個解決即可，安裝完成啟動server.py

$ cd text-generation-webui
$ python server.py

2023-12-15 16:42:44 INFO:Loading the extension "gallery"...
Running on local URL:  http://127.0.0.1:7861

To create a public link, set `share=True` in `launch()`.

瀏覽器打開127.0.0.1:7861進入text-generation-webui客戶端，進入model頁加載模型，提前將Atom-7B模型目錄放置到text-generation-webui路徑下的models目錄下，然后在網頁端選擇Atom-7B，選擇bf16精度，點擊load加載模型

model模型加載

加載成功后會提示已經成功加載模型

模型加載成功

回到Chat界面，在文本框中輸入內容，點擊Generate即可完成文本生成

使用大模型進行對話測試

在Parameters界面可以對generate的參數進行調整嗎，比如最大生成單詞數，溫度系數，top-k，top-p等。

參數管理頁面

其他功能讀者可自行測試，本文作為對LLaMA的簡單介紹和快速開始，后續會對其中部分技術細節做深入分析，全文完畢。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,718評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

大模型系列：LLaMA大模型簡述和本地部署實踐

大模型系列：LLaMA大模型簡述和本地部署實踐

內容摘要

LLaMA大模型背景介紹

LLaMA網絡結構相比Transformer的改進

1.前置層歸一化+RMSNorm歸一化函數

2.門控線性單元和SwiGLU激活函數

3.旋轉位置編碼RoPE

LLaMA中文化Atom大模型簡述

在Python中調用HuggingFace LLaMA模型

基于text-generation-webui部署LLaMA問答平臺

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

大模型系列：LLaMA大模型簡述和本地部署實踐

內容摘要

LLaMA大模型背景介紹

LLaMA網絡結構相比Transformer的改進

1.前置層歸一化+RMSNorm歸一化函數

2.門控線性單元和SwiGLU激活函數

3.旋轉位置編碼RoPE

LLaMA中文化Atom大模型簡述

在Python中調用HuggingFace LLaMA模型

基于text-generation-webui部署LLaMA問答平臺

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频