在第三篇學習筆記中,我們實現了兩個簡單的模型,線性回歸和logistic回歸,對于模型結構簡單的網絡,我們不需要去處理他們的結構關系,但是在復雜的模型中,我們需要更好的安排模型的結構,這樣方便我們debug和良好的可視化,接下來,我們就討論一下如何結構化我們的模型。
TensorFlow中結構化模型
一般我們的模型都是由一下的兩步構成,第一步是構建計算圖,第二步是執行計算圖,下面我們就來依次看看這兩步操作中如何結構化模型。
構建計算圖
在構建計算圖中,一般分為下面5個步驟:
定義輸入和輸出的占位符(placeholder)
定義模型中需要用到的權重
定義推斷模型,構建網絡
定義損失函數作為優化對象
定義優化器進行優化
執行計算圖
定義好了計算圖之后,我們就可以構建session去進行運算,一般也分為下面5個步驟:
第一次進行運算的時候,初始化模型的所有參數
傳入訓練數據,可以打亂順序
網絡前向傳播,計算出當前參數下的網絡輸出
根據網絡輸出和目標計算出loss
通過loss方向傳播更新網絡中的參數
下面是一個可視化的示意圖
實例介紹
上面是一個基本的一般性描述,下面我們使用詞向量和skip-gram這個具體的例子來介紹一下如何結構化模型,如果對詞向量不熟悉的同學,可以查看一下我的這篇文章的簡單介紹,更加詳細的介紹可以閱讀這篇博文或者是cs224n的課件。
詞向量的簡單介紹
詞向量簡單來說就是用一個向量去表示一個詞語,但是這個向量并不是隨機的,因為這樣并沒有任何意義,所以我們需要對每個詞有一個特定的向量去表示他們,而有一些詞的詞性是相近的,比如"(love)喜歡"和"(like)愛",對于這種詞性相近的詞,我們需要他們的向量表示也能夠相近,如何去度量和定義向量之間的相近呢?非常簡單,就是使用兩個向量的夾角,夾角越小,越相近,這樣就有了一個完備的定義。
雖然我們知道了如何定義詞向量的相似性,但是我們仍然不知道如何得到詞向量,因為這顯然不可能人為去賦值,為了得到詞向量,需要介紹skip-gram模型。
skip-gram模型的簡單介紹
skip-gram模型簡單來講就是在一大段話中,我們給定其中一個詞語,希望預測它周圍的詞語,將詞向量作為參數,通過這種方式來訓練詞向量,最后能夠得到滿足要求的詞向量。而一般來講,skip-gram模型都是比較簡單的線性模型。另外cs224n中還介紹了Noise Contrastive Estimation(不知道怎么翻譯)的方法,這里就不再詳細介紹了,這只是一種負樣本的取樣方法。
TensorFlow實現
下面使用tensorflow的實現來具體講解一下如何結構化模型,首先我們會實現一個非結構化版本,看看他的局限性和不足性,然后講解一下如何結構化模型。
數據集
這里使用的是text8數據集,這是一個大約100 MB的清理過的數據集,當然這個數據集非常小并不足以訓練詞向量,但是我們可以得到一些有趣的結果。
構建計算圖
首先定義好一些超參數。
VOCAB_SIZE = 50000
BATCH_SIZE = 128
EMBED_SIZE = 128 # dimension of the word embedding vectors
SKIP_WINDOW = 1 # the context window
NUM_SAMPLED = 64 # Number of negative examples to sample.
LEARNING_RATE = 1.0
NUM_TRAIN_STEPS = 20000
SKIP_STEP = 2000 # how many steps to skip before reporting the loss
- 建立輸入和輸出的占位符(placeholder)
首先,我們將數據集中的所有語句按順序排在一起,那么我們輸入的是其中一個詞語,比如說是第300個,那么要預測的就是他周圍的詞,比如第301個詞,或者299個詞,當然這個范圍并不一定是1,一般來講可以預測左邊3個詞和右邊3個詞中的任何一個,所以輸入和輸出的占位符定義如下。
center_word = tf.placeholder(tf.int32, [BATCH_SIZE],
name='center_words')
y = tf.placeholder(tf.int32, [BATCH_SIZE, SKIP_WINDOW],
name='target_words')
這里SKIP_WINDOW表示預測周圍詞的數目,超參數里面取值為1。
- 定義詞向量矩陣
接下來需要定義詞向量,使用下面的代碼。
embed_matrix = tf.get_variable(
"WordEmbedding", [VOCAB_SIZE, EMBED_SIZE],
tf.float32,
initializer=tf.random_uniform_initializer(-1.0, 1.0))
這里相當于新建一個Variable,維數分別是總的詞數x詞向量的維度。
- 構建網絡模型
我們可以通過下面的操作取到詞向量矩陣中所需要的每一個詞的詞向量。
embed = tf.nn.embedding_lookup(embed_matrix, center_word, name='embed')
這里embed_matrix和center_word分別表示詞向量矩陣和需要提取詞向量的單詞,我們都已經定義過了。
- 定義loss函數
NCE已經被集成進了tensorflow,所以我們可以非常方便地進行使用,下面就是具體的api。
tf.nn.nce_loss(weights, biases, labels, inputs, num_sampled, num_classes, num_true=1, sampled_values=None, remove_accidental_hits=False, partition_strategy='mod', name='nce_loss')
labels和inputs分別是target和輸入的詞向量,前面有兩個參數分別時weights和biases,因為詞向量的維度一般不等于分類的維度,需要將詞向量通過一個線性變換映射到分類下的維度。有了這個定義之后,我們就能夠簡單地進行實現了。
nce_weight = tf.get_variable(
'nce_weight', [VOCAB_SIZE, EMBED_SIZE],
initializer=tf.truncated_normal_initializer(
stddev=1.0 / (EMBED_SIZE**0.5)))
nce_bias = tf.get_variable(
'nce_bias', [VOCAB_SIZE], initializer=tf.zeros_initializer())
nce_loss = tf.nn.nce_loss(nce_weight, nce_bias, y, embed,
NUM_SAMPLED,
VOCAB_SIZE)
loss = tf.reduce_mean(nce_loss, 0)
- 定義優化函數
接下來我們就可以定義優化函數了,非常簡單,我們使用隨機梯度下降法。
optimizer = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(loss)
執行計算圖
構建完成計算圖之后,我們就開始執行計算圖了,下面就不分開講了,直接放上整段session里面的內容。
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
total_loss = 0.0 # we use this to calculate the average loss in the last SKIP_STEP steps0
writer = tf.summary.FileWriter('./graphs/no_frills/', sess.graph)
for index in range(NUM_TRAIN_STEPS):
centers, targets = next(batch_gen)
train_dict = {center_word: centers, y: targets}
_, loss_batch = sess.run([optimizer, loss], feed_dict=train_dict)
total_loss += loss_batch
if (index + 1) % SKIP_STEP == 0:
print('Average loss at step {}: {:5.1f}'.format(
index, total_loss / SKIP_STEP))
total_loss = 0.0
writer.close()
通過閱讀代碼,也能看到非常清晰的結構,一步一步去運行結果。
最后放上tensorboard中網絡結構的示意圖。
可以發現整體的網絡結構是非常混亂的,所以我們需要結構化我們的模型。
結構化網絡
結構化網絡非常簡單,只需要加入Name Scope,下面是一個簡單的事例。
with tf.name_scope(name_of_taht_scope):
# declare op_1
# declare op_2
# ...
舉一個例子,比如我們定義輸入輸出的占位符的時候,可以如下方式定義
with tf.name_scope('data'):
center_word = tf.placeholder(
tf.int32, [BATCH_SIZE], name='center_words')
y = tf.placeholder(
tf.int32, [BATCH_SIZE, SKIP_WINDOW], name='target_words')
然后我們運行相同的代碼,就能夠在tensorboard里面得到下面的結果。
是不是結構非常的清楚,所以我們平時需要結構化我們的模型,以便于更好的可視化和debug。
詞向量可視化
最后在介紹一下詞向量的可視化,現在tensorboraad也支持詞向量的可視化了,進行一系列復雜的操作,就能夠在tensorboard中得到下面的結果。
輸入每個詞,都能夠在右邊看到與之詞性相近的詞語分別是什么,特別方便,這個可視化的代碼在這個文件中。
本文的全部代碼都在github
歡迎訪問我的博客
歡迎查看我的知乎專欄,深度煉丹