cs20si: tensorflow for research學習筆記4

在第三篇學習筆記中，我們實現了兩個簡單的模型，線性回歸和logistic回歸，對于模型結構簡單的網絡，我們不需要去處理他們的結構關系，但是在復雜的模型中，我們需要更好的安排模型的結構，這樣方便我們debug和良好的可視化，接下來，我們就討論一下如何結構化我們的模型。

TensorFlow中結構化模型

一般我們的模型都是由一下的兩步構成，第一步是構建計算圖，第二步是執行計算圖，下面我們就來依次看看這兩步操作中如何結構化模型。

構建計算圖

在構建計算圖中，一般分為下面5個步驟:

定義輸入和輸出的占位符(placeholder)
定義模型中需要用到的權重
定義推斷模型，構建網絡
定義損失函數作為優化對象
定義優化器進行優化

執行計算圖

定義好了計算圖之后，我們就可以構建session去進行運算，一般也分為下面5個步驟:

第一次進行運算的時候，初始化模型的所有參數
傳入訓練數據，可以打亂順序
網絡前向傳播，計算出當前參數下的網絡輸出
根據網絡輸出和目標計算出loss
通過loss方向傳播更新網絡中的參數

下面是一個可視化的示意圖

Paste_Image.png

實例介紹

上面是一個基本的一般性描述，下面我們使用詞向量和skip-gram這個具體的例子來介紹一下如何結構化模型，如果對詞向量不熟悉的同學，可以查看一下我的這篇文章的簡單介紹，更加詳細的介紹可以閱讀這篇博文或者是cs224n的課件。

詞向量的簡單介紹

詞向量簡單來說就是用一個向量去表示一個詞語，但是這個向量并不是隨機的，因為這樣并沒有任何意義，所以我們需要對每個詞有一個特定的向量去表示他們，而有一些詞的詞性是相近的，比如"(love)喜歡"和"(like)愛"，對于這種詞性相近的詞，我們需要他們的向量表示也能夠相近，如何去度量和定義向量之間的相近呢？非常簡單，就是使用兩個向量的夾角，夾角越小，越相近，這樣就有了一個完備的定義。

雖然我們知道了如何定義詞向量的相似性，但是我們仍然不知道如何得到詞向量，因為這顯然不可能人為去賦值，為了得到詞向量，需要介紹skip-gram模型。

skip-gram模型的簡單介紹

skip-gram模型簡單來講就是在一大段話中，我們給定其中一個詞語，希望預測它周圍的詞語，將詞向量作為參數，通過這種方式來訓練詞向量，最后能夠得到滿足要求的詞向量。而一般來講，skip-gram模型都是比較簡單的線性模型。另外cs224n中還介紹了Noise Contrastive Estimation(不知道怎么翻譯)的方法，這里就不再詳細介紹了，這只是一種負樣本的取樣方法。

TensorFlow實現

下面使用tensorflow的實現來具體講解一下如何結構化模型，首先我們會實現一個非結構化版本，看看他的局限性和不足性，然后講解一下如何結構化模型。

數據集

這里使用的是text8數據集，這是一個大約100 MB的清理過的數據集，當然這個數據集非常小并不足以訓練詞向量，但是我們可以得到一些有趣的結果。

構建計算圖

首先定義好一些超參數。

VOCAB_SIZE = 50000
BATCH_SIZE = 128
EMBED_SIZE = 128  # dimension of the word embedding vectors
SKIP_WINDOW = 1  # the context window
NUM_SAMPLED = 64  # Number of negative examples to sample.
LEARNING_RATE = 1.0
NUM_TRAIN_STEPS = 20000
SKIP_STEP = 2000  # how many steps to skip before reporting the loss

建立輸入和輸出的占位符(placeholder)
首先，我們將數據集中的所有語句按順序排在一起，那么我們輸入的是其中一個詞語，比如說是第300個，那么要預測的就是他周圍的詞，比如第301個詞，或者299個詞，當然這個范圍并不一定是1，一般來講可以預測左邊3個詞和右邊3個詞中的任何一個，所以輸入和輸出的占位符定義如下。

center_word = tf.placeholder(tf.int32, [BATCH_SIZE], 
                             name='center_words')
y = tf.placeholder(tf.int32, [BATCH_SIZE, SKIP_WINDOW],
                   name='target_words')

這里SKIP_WINDOW表示預測周圍詞的數目，超參數里面取值為1。

定義詞向量矩陣
接下來需要定義詞向量，使用下面的代碼。

embed_matrix = tf.get_variable(
    "WordEmbedding", [VOCAB_SIZE, EMBED_SIZE],
    tf.float32,
    initializer=tf.random_uniform_initializer(-1.0, 1.0))

這里相當于新建一個Variable，維數分別是總的詞數x詞向量的維度。

構建網絡模型
我們可以通過下面的操作取到詞向量矩陣中所需要的每一個詞的詞向量。

embed = tf.nn.embedding_lookup(embed_matrix, center_word, name='embed')

這里embed_matrix和center_word分別表示詞向量矩陣和需要提取詞向量的單詞，我們都已經定義過了。

定義loss函數
NCE已經被集成進了tensorflow，所以我們可以非常方便地進行使用，下面就是具體的api。

tf.nn.nce_loss(weights, biases, labels, inputs, num_sampled, num_classes, num_true=1, sampled_values=None, remove_accidental_hits=False, partition_strategy='mod', name='nce_loss')

labels和inputs分別是target和輸入的詞向量，前面有兩個參數分別時weights和biases，因為詞向量的維度一般不等于分類的維度，需要將詞向量通過一個線性變換映射到分類下的維度。有了這個定義之后，我們就能夠簡單地進行實現了。

nce_weight = tf.get_variable(
            'nce_weight', [VOCAB_SIZE, EMBED_SIZE],
            initializer=tf.truncated_normal_initializer(
                stddev=1.0 / (EMBED_SIZE**0.5)))

nce_bias = tf.get_variable(
            'nce_bias', [VOCAB_SIZE], initializer=tf.zeros_initializer())

nce_loss = tf.nn.nce_loss(nce_weight, nce_bias, y, embed,
                          NUM_SAMPLED,
                          VOCAB_SIZE)
loss = tf.reduce_mean(nce_loss, 0)

定義優化函數
接下來我們就可以定義優化函數了，非常簡單，我們使用隨機梯度下降法。

optimizer = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(loss)

執行計算圖

構建完成計算圖之后，我們就開始執行計算圖了，下面就不分開講了，直接放上整段session里面的內容。

with tf.Session() as sess:

    sess.run(tf.global_variables_initializer())

    total_loss = 0.0  # we use this to calculate the average loss in the last SKIP_STEP steps0
    writer = tf.summary.FileWriter('./graphs/no_frills/', sess.graph)
    for index in range(NUM_TRAIN_STEPS):
        centers, targets = next(batch_gen)
        train_dict = {center_word: centers, y: targets}
        _, loss_batch = sess.run([optimizer, loss], feed_dict=train_dict)
        total_loss += loss_batch
        if (index + 1) % SKIP_STEP == 0:
            print('Average loss at step {}: {:5.1f}'.format(
                index, total_loss / SKIP_STEP))
            total_loss = 0.0
    writer.close()

通過閱讀代碼，也能看到非常清晰的結構，一步一步去運行結果。

最后放上tensorboard中網絡結構的示意圖。

Paste_Image.png

可以發現整體的網絡結構是非常混亂的，所以我們需要結構化我們的模型。

結構化網絡

結構化網絡非常簡單，只需要加入Name Scope，下面是一個簡單的事例。

with tf.name_scope(name_of_taht_scope):
    # declare op_1
    # declare op_2
    # ...

舉一個例子，比如我們定義輸入輸出的占位符的時候，可以如下方式定義

 with tf.name_scope('data'):
    center_word = tf.placeholder(
            tf.int32, [BATCH_SIZE], name='center_words')
    y = tf.placeholder(
            tf.int32, [BATCH_SIZE, SKIP_WINDOW], name='target_words')

然后我們運行相同的代碼，就能夠在tensorboard里面得到下面的結果。

Paste_Image.png

是不是結構非常的清楚，所以我們平時需要結構化我們的模型，以便于更好的可視化和debug。

詞向量可視化

最后在介紹一下詞向量的可視化，現在tensorboraad也支持詞向量的可視化了，進行一系列復雜的操作，就能夠在tensorboard中得到下面的結果。

Paste_Image.png

輸入每個詞，都能夠在右邊看到與之詞性相近的詞語分別是什么，特別方便，這個可視化的代碼在這個文件中。

本文的全部代碼都在github

歡迎訪問我的博客

歡迎查看我的知乎專欄，深度煉丹

最后編輯于：2017.12.10 04:52:30

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,488評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,034評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,327評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,554評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,337評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,883評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,975評論 3贊 439
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,114評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,625評論 1贊 332
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,555評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,737評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,244評論 5贊 355
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,973評論 3贊 345
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,362評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,615評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,343評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,699評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

cs20si: tensorflow for research學習筆記4

cs20si: tensorflow for research學習筆記4

TensorFlow中結構化模型

構建計算圖

執行計算圖

實例介紹

詞向量的簡單介紹

skip-gram模型的簡單介紹

TensorFlow實現

數據集

構建計算圖

執行計算圖

結構化網絡

詞向量可視化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

cs20si: tensorflow for research學習筆記4

TensorFlow中結構化模型

構建計算圖

執行計算圖

實例介紹

詞向量的簡單介紹

skip-gram模型的簡單介紹

TensorFlow實現

數據集

構建計算圖

執行計算圖

結構化網絡

詞向量可視化

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频