關鍵詞:大語言模型
,LLaMA
內容摘要
- LLaMA大模型背景介紹
- LLaMA網絡結構相比Transformer的改進
- LLaMA中文化Atom大模型簡述
- 在Python中調用HuggingFace LLaMA模型
- 基于text-generation-webui部署LLaMA問答平臺
LLaMA大模型背景介紹
LLaMA是Meta AI公司在2023年2月發布的開源大模型,在開放基準上有著非常出色的表現,是迄今為止最流行的開放語言模型之一。
同期谷歌的PaLM大模型,OpenAI的GPT-4都采用閉源的方式,不能從源碼來剖析模型的結構,LLaMA的開源降低了大模型的研究門檻,后續許多大模型都是借鑒或沿用了LLaMA的模型框架。另一方面由于LLaMA的開源,開發者可以將LLaMA作為基座模型進行本地部署搭建,用新的語料繼續預訓練或者微調,從而保證了數據的安全性不需要發送給第三方。
LLaMA網絡結構相比Transformer的改進
LLaMA和GPT系列一樣采用Transformer的堆疊Decoder,以上下文預測下一個詞作為預測目標,在海量文本上進行無監督預訓練。LLaMA的訓練語料是以英語為主的拉丁語系,在分詞方面,LLaMA采用sentencepiece實現的Byte-level BPE對語料進行分詞編碼。
和標準的Transformer相比,LLaMA借鑒了同期其他的研究成果對模型的局部結構進行了調整,包括
- 前置層歸一化+RMSNorm歸一化函數
- 門控線性單元和SwiGLU激活函數
- 旋轉位置編碼RoPE
1.前置層歸一化+RMSNorm歸一化函數
為了使模型訓練更加穩定,在Decoder單元將第一個層歸一化移動到多頭注意力之前,將第二個層歸一化移動到前饋傳播層之前,同時殘差連接位置調整到多頭注意力層和前饋傳播層之后,如下圖所示
在歸一化的計算方式上,采用RMSNorm函數,相比于標準的LayerNorm舍棄了均值的影響,是均值為0時LayerNorm的特例,使得計算變得簡單加快模型訓練和推理效率。
2.門控線性單元和SwiGLU激活函數
LLaMA采用門控線性單元GLU配合Swish激活函數,代替了標準transformer的前饋傳播層全連接+ReLU的結構,SwishGLU的形式在大部分測評中被證明比全連接+ReLU更加有效。SwiGLU的計算公式如下
3.旋轉位置編碼RoPE
LLaMA采用旋轉位置編碼Rotary Position Embedding,RoPE的思想是找到一個變換將位置信息注入Query和Key向量中,這樣注意力中的Query和Key的內積計算能夠感知到兩者的相對位置距離,這個變換的求解結果對應為向量旋轉,因此取名為旋轉位置編碼。
LLaMA中文化Atom大模型簡述
LLaMA對中文的支持較差,訓練數據中中文占比很少,且詞表對中文字符的覆蓋度不夠,因此本篇采用Llama中文社區推出的原子大模型Atom,它基于LLaMA架構在中文語料上重新預訓練,并且拓充了詞表提高了模型對中文文本表征能力和編碼解碼速度,可在HuggingFace模型倉庫進行下載
在Python中調用HuggingFace LLaMA模型
根據中文LLaMA社區官網的案例快速開始,在Python中使用HuggingFace對Atom-7B進行調用測試如下
import torch
from transformers import AutoTokenizer, LlamaForCausalLM
model = LlamaForCausalLM.from_pretrained('./Atom-7B', torch_dtype=torch.float16)
model = model.to("cuda").eval()
tokenizer = AutoTokenizer.from_pretrained('./Atom-7B', use_fast=False)
tokenizer.pad_token = tokenizer.eos_token
input_ids = tokenizer(['<s>Human: 請給一個去蘇州旅游的攻略\n</s><s>Assistant: '], return_tensors="pt",
add_special_tokens=False).input_ids.to('cuda')
generate_input = {
"input_ids": input_ids,
"max_new_tokens": 512,
"do_sample": True,
"top_k": 50,
"top_p": 0.95,
"temperature": 0.3,
"repetition_penalty": 1.3,
"eos_token_id": tokenizer.eos_token_id,
"bos_token_id": tokenizer.bos_token_id,
"pad_token_id": tokenizer.pad_token_id
}
generate_ids = model.generate(**generate_input)
text = tokenizer.decode(generate_ids[0])
print(text)
將問題:“請給一個去蘇州旅游的攻略”拼入Human Assistant提示詞模板,文本生成如下
<s> Human: 請給一個去蘇州旅游的攻略
</s><s> Assistant: 1. 交通:建議乘坐高鐵或飛機前往,距離上海約2小時車程。也可以選擇自駕車或者公共汽車出行。
2. 住宿推薦:可以住在市中心的酒店、民宿等住宿設施中;也可以考慮在風景優美的郊區尋找合適的住所。
3. 推薦景點:拙政園(中國四大名園之一)、獅子林(園林藝術瑰寶)、留園(江南古典私家花園的典范)、虎丘塔(古代建筑和石刻藝術的代表)等等。
4. 建議游玩時間:5-7天為宜,每天安排一到兩個主要景區游覽即可。
5. 注意事項:帶好身份證件以及必要的證件如護照簽證等,注意天氣變化并攜帶雨具防曬用品等物品。遵守當地法律法規及風俗習慣和文化禁忌。尊重當地的文化傳統和環境保護意識。避免與當地人發生沖突或其他不愉快的事情。
6. 其他信息:了解一些關于蘇州的歷史文化和風土人情的知識是非常有益的。還可以參加一些本地的特色活動體驗一下當地的生活方式與文化氛圍。最后記得留下自己的旅行心得和經驗分享哦!
</s>
基于text-generation-webui部署LLaMA問答平臺
text-generation-webui是一個用于運行大型語言模型的Gradio Web用戶界面,他可以將本地的模型文件部署為一個Web服務,實現模型推理,問答對話,模型訓練,參數管理等功能。
先通過anaconda創建Python虛擬環境
$ conda create -n textgen python=3.8
$ conda activate textgen
下載text-generation-webui項目到本地,安裝requirements中所需要的依賴
$ git clone https://github.com/oobabooga/text-generation-webui
$ cd text-generation-webui
$ pip install -r <requirements file according to table below>
安裝過程中可能會有各種版本不兼容的錯誤,逐個解決即可,安裝完成啟動server.py
$ cd text-generation-webui
$ python server.py
2023-12-15 16:42:44 INFO:Loading the extension "gallery"...
Running on local URL: http://127.0.0.1:7861
To create a public link, set `share=True` in `launch()`.
瀏覽器打開127.0.0.1:7861進入text-generation-webui客戶端,進入model頁加載模型,提前將Atom-7B模型目錄放置到text-generation-webui路徑下的models目錄下,然后在網頁端選擇Atom-7B,選擇bf16精度,點擊load加載模型
加載成功后會提示已經成功加載模型
回到Chat界面,在文本框中輸入內容,點擊Generate即可完成文本生成
在Parameters界面可以對generate的參數進行調整嗎,比如最大生成單詞數,溫度系數,top-k,top-p等。
其他功能讀者可自行測試,本文作為對LLaMA的簡單介紹和快速開始,后續會對其中部分技術細節做深入分析,全文完畢。