語音技術的進步增強了電腦的理解能力,減少了對其的恐懼
英國科幻小說家 Arthuc C.Clarke 的筆記提到,
任何科技得到足夠的進步時與魔術之間就難以區分了。
計算機語音技術的快速進步。使用這種技術就像念咒語一樣,對著空氣說幾個詞,然后在附近的設備就會響應你的命令。
亞馬遜出了一款放在桌面的圓柱形的語音設備 Echo,里面的的語音助手叫做 Alexa。你可以叫他播放音樂和電臺節目,講笑話,回答一些瑣碎的問題,甚至還能控制一些智能家具。截止至圣誕節前的數據,美國大約有 4% 的家庭擁有該設備,而且語音助手的數量在智能手機上快速增加。蘋果公司的 Siri 每周要處理兩百萬的條命令。美國的安卓用戶有 20% 使用 Google 搜索時是用語音輸入關鍵字的。現在用語音來寫電子郵件和短信的準確率已經足夠令人滿意了,那么我們可以用語音輸入的時候我們為什么要打字呢?

語音輸入這是非常大的轉變。這好像變得變得足夠簡單,通過使用自然的語句,語音是一種強大的文字轉換解決方式。窗口,圖標,菜單還有觸摸屏,更加喜歡用自然的方式來與計算機交互而不是用鍵盤輸入復雜的命令。
但是不管怎么樣在能夠與電腦進行溝通前我們需要一個好看的外觀。類似于把手機天線隱藏掉,汽車的運輸貨物時也不再需要用馬來拉,因此相對與目前的人們能想到的語音技術,沒有屏幕和鍵盤的電腦可能更加有效,強大和普遍。
語音技術不會完全取代其他形式的輸入或輸出,有時仍然會使用打字而不是語音( Amazon 說也可以使用 Echo 上的屏幕來實現交互)的方式來與機器進行交互。但是語音可以增加了大量被科技包圍的用戶間的互動分享。例如洗衣機上的虛擬助手會通過你指定的控制中心告訴你轉了多少次。但是,為了發掘全部潛能,需要更加超前的技術還有一系列在方便與隱私之間進行權衡的問題。
Alexa,它是深度學習的嗎?
語音識別系統已經出現一年多了,但它還是不可靠而且需要長時間的訓練識別才能知道用戶的聲音。現在計算機借助深度學習這一新「技能」可以不通過訓練而且可靠的辨識幾乎所有的人的聲音。深度學習是使用從互聯網上獲取的數百萬的樣本來訓練機器,時期具有類似人的智力的一個軟件系統。借助深度學習,現在機器具有接近用人來翻譯的精確程度,將結果存入翻譯系統可以快速提高它的能力,而且機器將語言說出來的時候聲音更加自然而不會非常像生硬。總得來說,在各種形式中計算機可以更好的處理自然語言。
雖然深度學習可以使機器辨認說話者更加可靠而且使機器發出的聲音更加自然,但是仍然無法理解所說的話的含義。這在所有的因素中是最困難的問題。如果語音設備足夠多的話,這個問題可能可以解決。計算機必須要理解其中的內容才能維持連貫的談話而不是做一些簡單的反饋。據調查,一天中使用最多的一條語音命令是「Hey,Siri,設10分鐘記時」。大大小小的在大學里和公司里的研究人員都在研究怎么解決這個問題,創建一個「機器人」可以處理更多詳細談話中的復雜內容,例如從獲取信息來勸告使用者在抵押貸款來指定旅游計劃。(此外,Amazon 懸賞一百萬美金在20分鐘機器人與人的交流中,機器人具有連貫性和有吸引力的人)
當自然對話代替固定指令時
顧客和監管機構在計算機語音的發展上總是扮演了一個決定性的角色。即使在目前,相對原始的模型已經形成,科技公司處在一個左右為難的位置。實現語音駕駛系統個性化推薦最有用的方法就是使用廣泛的個人數據,例如日歷,郵件和其他敏感信息。這會增加對隱私和安全的擔心。
為了應對未來復雜的事情,許多語音駕駛設備會一直在監聽和等待被使用者激活,一些人已經擔心會暗中通過互聯網來連接麥克風來監聽每一間房間和每一臺智能手機。其實,不是所有的聲音都會發送到云端,設備在開始回應使用者的語音前會等待一些關鍵詞(例如:「Alexa」,「OK,Google」,「Hey,小娜」或者「Hey,Siri」)才會作出對應的回答。但當在存儲的語音時,機器是分不清要儲存什么和什么時候儲存的。
據警察在 Arkansas 調查謀殺犯的時候,他們無意中聽到 Amazon Echo 用語音在回答公司的許可證時才將犯人抓獲。由于目前的法律條文還不太清析。Amazon 拒絕與其合作調查,(與隱私擁護者)爭論。類似的狀況也發生在 2016 蘋果拒絕 FBI 的請求去解鎖恐怖分子的手機[1]。這兩件事都放映需要特別的規章來界定面對安全問題時,在什么時候和以怎樣的方式來獲得個人隱私。
消費者將會適應用語音使用計算機,即使現在還有很多問題沒有解決。在很多情況下,語音比起其他的溝通反思更加方便和更加自然。獨一無二的交互方式,它可以被用來做一些其他的事情(駕駛,工作中或者在街上行走)。它可以擴展計算機人類無法實現的能力,除了用屏幕和鍵盤。它不僅會對計算機產生巨大的影響,而且還會對語言本身的使用產生巨大的影響。電腦化的同聲翻譯可以使不相關的不同外語使用自由交流;而在一個世界里,機器會說話,這樣小語種可能更容易生存。觸摸屏的到來是過去人類與計算機的交互方式最大的轉變。但語音的飛躍更重要。