自然語言處理從規則到統計的過渡花了15年時間。為什么這場爭議持續了15年?
1. 一種新的研究方法的成熟需要很多年。
- 20世紀70年代,基于統計的方法的核心模型是通信系統加隱含馬爾可夫模型。這個系統的輸入和輸出都是一維得得符號序列,而且保持原有的次序。
- 1988年,IBM的Peter Brown等人提出了基于統計的機器翻譯方法,框架是對的,但是效果很差,因為當時既沒有足夠的統計數據,也沒有足夠強大的模型來解決不同語言語序顛倒的問題。
2. 用基于統計的方法代替傳統的方法,需要等原有的一批語言學家退休。
?- 錢鐘書在《圍城》中講,老科學家可以理解成“老的科學家”或者“老科學的家”兩種。后者的年紀不算老,但是已經落伍,大家必須耐心等他們退休讓出位子。
基于統計的自然語言處理方法,在數學模型上和通信是相通的。
通信模型
信息(信息源) -> 編碼 -> 信息(信道) -> 解碼 -> 信息(接收方)