有了這東西,作文還怎么判啊?
印象
之前給學生上課的時候,我介紹過利用循環神經網絡,仿照作家風格進行創作的機器學習模型。
不過,那模型寫出來的東西嘛……
He went over to the gate of the café. It was like a country bed.“Do you know it’s been me.”“Damned us,” Bill said.“I was dangerous,” I said. “You were she did it and think I would a fine cape you,” I said.“I can’t look strange in the cab.”“You know I was this is though,” Brett said.“It’s a fights no matter?”“It makes to do it.”“You make it?”“Sit down,” I said. “I wish I wasn’t do a little with the man.”“You found it.”“I don’t know.”“You see, I’m sorry of chatches,” Bill said. “You think it’s a friend off back and make you really drunk.”
我的評價是:
望之,不似人語。
因為這種限制,人們并沒有把“機器寫作”當成一回事兒。
總覺得機器要寫成那種以假亂真的高度,可能還需要等上很久遠的一段時間。
然而,這世界變化快。
工具
早上,我嘗試了一個新工具。
一個在線編輯器界面里,輸入或長或短的一段話,然后按一下 Tab 鍵。
后面的內容,機器就幫你自動逐步填充。
填充的過程里,系統每次給你3個備選方案,這樣你可以控制寫作思路的走向。
當然,你也可以根本不管其他選項,一直走默認路徑。機器照樣文思泉涌。
最后生成的文章,是這個樣子的。
其中,第一段落是我自己隨便瞎寫的。后面高亮段落,都是電腦模型自己編出來的。
不但標點符號、語法修辭用得有鼻子有眼兒,就連我那段里根本沒有提到過的創始人,都跳了出來長篇大論。
嘗試
你可以在我的公眾號“玉樹芝蘭”(nkwangshuyi)后臺回復“aiwrite”,查看這個智能寫作編輯器的鏈接。
不知道你嘗試過后的感覺是什么。
反正我覺得,以后學校里的英文寫作課,怕是沒有辦法判作業了。
原本需要學生花半個小時完成的任務,現在他可以輕點幾下按鍵,就能搞定交差。
更要命的是,從原理來講,查重系統面對這種作品,是無效的。
因為這并非抄襲。
機器每一次的“創作”,幾乎都能保證是全新的。
原理
你一定想知道這背后的原理吧?
其實,在我們之前的教程里,我多次給你介紹過它。就是目前最火的自然語言模型架構——Transformer。
(上圖來自于經典之作“Attention is All You Need”)
我們詳細介紹過使用方法的 BERT ,當初用的就是這種技術,才產生了野蠻霸榜的效果。
不過咱們用的這個編輯器,底層并不是 BERT ,而是我們之前提及的 GPT 2。
大多數人提到它的時候,介紹往往不是那么正面。
并不是因為 GPT 2 這種技術不夠好。而是因為它“太好了”。
好到足夠讓人眼饞。
好到開發者決定,不開放訓練數據集、代碼、甚至模型參數……
要知道,在當今這樣一個開源開放的趨勢下,這么做會招致多少非議。
當時 OpenAI 做出這種決定和解釋,有人便認為是出于饑餓營銷的目的,賺眼球。
但是,你剛剛自己嘗試過語言生成模型的威力之后,還會保持這么單純的想法嗎?
威脅
僅舉一例。
互聯網上,假新聞是一個非常嚴重的問題。
原先,用機器造假新聞出來,成本固然低,但專業人士還是很容易通過語言特征和統計規律來識別的。
而一旦,假新聞不但生產成本低廉,分分鐘可搞定,還完全具備了真新聞的語言特征,要分辨出來,就不容易了。
假新聞有可能多點大規模爆發,因從眾和沉默螺旋等社會心理機制,對大眾輕易造成誤導。
面對這種潛在威脅,我們真的已有完善的應對之策嗎?
正因為這種威脅實際存在,數據倫理才愈發成為重要的研究課題。
如果你做數據科學研究,這個方向大有可為。
魔盒
風險是顯著的。
而技術的進步與發展,真的能夠因為一家機構決定“不開放模型”的舉措,就能停滯嗎?
當然不會。
OpenAI 因為壓力,不斷釋放出更為強大的開源模型。目前開放的預訓練模型版本,達到了 774M 個參數。距離完全版本模型的釋放,也就是臨門一腳的事兒了。
曾經,普通人即便拿到了這種開源工具,也需要一定的門檻,才能使用。
然而“有好事者”,在整合包裝了若干種主流的 Transformer 模型之后,降低了 GPT2 機器寫作的門檻。
于是,就有你看到的這個編輯器了。
波瀾
我把 GPT2 自動寫作的結果,發到了朋友圈。
驚艷之余,小伙伴想到的,主要是以下兩個問題:
- 什么時候出中文的?
- 能否和寫字機器人配合使用?
我看后很無語。
好在這一位的留言,讓我看到了光明的一面:
以后英語老師出閱讀題,可方便多了。
延伸閱讀
你可能也會對以下話題感興趣。點擊鏈接就可以查看。
- 如何高效學 Python ?
- 如何用 Python 和深度遷移學習做文本分類?
- 如何用 Python 和 BERT 做中文文本二元分類?
- 如何用 Python 和 BERT 做多標簽(multi-label)文本分類?
- 如何在 fast.ai 用 BERT 做中文文本分類?
喜歡別忘了點贊。
還可以微信關注我的公眾號“玉樹芝蘭”(nkwangshuyi)。別忘了加星標,以免錯過新推送提示。
題圖: Photo by Pereanu Sebastian on Unsplash