在NLP任務中,我們將自然語言交給機器學習算法來處理,但機器無法直接理解人類的語言,因此首先的任務就是將語言數學化,如何對自然語言進行數學化呢?詞向量提供了一種很好的形式。這里我們介紹兩種簡單的詞向量
1、one-hot representation
一種最簡單的詞向量就是one-hot representation,就是用一個很長的向量來表示一個詞,向量的長度為辭典D的大小N,向量的分量只有一個1,其他全部是0,1的位置對應蓋茨在辭典中的索引,但這種詞向量有一些缺點,容易受到維數災難的困擾,同時,他不能很好的刻畫詞與詞之間的相關性。
2、Distributed representation
另一種詞向量是Distributed representation,其基本思想是:通過訓練某種語言的每一個詞映射成一個固定長度的短向量,所有這些向量構成一個詞向量空間,而每個向量視為這個空間中的一個點,那么,可以在這個空間中引入距離的概念,比如余弦距離,用以刻畫詞之間的相關性。