人工智能(AI)越來越多地成為我們周圍世界的一部分,它正在迅速改變我們的生活。它提供了一個非常令人興奮的機會,有時,它可能會有點可怕。毫無疑問,目前人工智能領域最具影響力的發展就是生成式人工智能。
就像聽起來的那樣,人工智能可以創造,從文字和圖像到視頻、音樂、計算機應用程序,甚至整個虛擬世界。
生成式人工智能的不同和特別之處在于,它將機器智能的力量交給了幾乎任何人。
我們已經習慣在日常生活中使用人工智能驅動的應用程序和工具。谷歌用它來查找我們需要的信息;亞馬遜用它來推薦我們應該買的東西;Netflix用它來推薦電影;Spotify用它來播放音樂——這一切都是由人工智能驅動的。
但新一代的生成式人工智能工具走得更遠,讓我們能夠以驚人的方式進行構建和創造。稍加練習,我們甚至可以用它們來構建我們自己的人工智能應用程序和工具。因為它打破了技術壁壘,所以它真正可以被視為期待已久的人工智能民主化的開始。
因此,在本文中,我將以簡單的方式概述它的強大之處,以及您可以使用它做些什么。我也會從非技術角度來看它是如何工作的,但最重要的是,我將解釋為什么它將改變世界,以及每個人應該做些什么來為它做準備。
什么是生成式人工智能?
今天使用的術語“人工智能”指的是能夠有效模擬人類認知過程的計算機算法——學習、決策、解決問題,甚至是創造力。
這是最后一個,也許是最人性化的品質,生成人工智能進入了人們的視野。像所有現代人工智能一樣,生成式人工智能模型是在數據上訓練的。然后,他們使用這些數據來創建更多的數據,遵循他們所學到的規則和模式。
例如,如果你用貓的照片訓練它,它會知道貓有四條腿,兩只耳朵和一條尾巴。然后,你可以讓它生成自己的貓的圖片,它會根據你的需要想出盡可能多的變化,所有這些都遵循這些基本規則。
一個值得理解的區別是生成AI和判別(或預測)AI之間的區別。判別式人工智能主要關注分類,學習“事物”之間的區別——例如貓和狗。這就是Netflix或亞馬遜等推薦引擎用來區分你可能想看或想買的東西和你不太可能感興趣的東西的方法。或者在導航應用程序中區分從A到B的好路線和你可能應該避免的路線。
相反,生成式人工智能側重于理解數據中的模式和結構,并使用它來創建看起來像它的新數據。
那么生成人工智能能做什么?
生成式人工智能的第一個用例通常涉及創建文本和圖像,但隨著技術變得越來越復雜,一個充滿可能性的世界已經打開。以下是其中的一些:
1. 圖像:許多生成式人工智能工具(如Midjourney或Stable Diffusion)可以采用自然語言(即人類語言)提示并使用它生成圖像。
2. 文本:ChatGPT可能是目前圍繞生成人工智能的激烈炒作的開端,但還有其他生成文本工具,如谷歌的Bard和Meta的Llama。它們可以用來寫任何東西,從散文和文章到戲劇、詩歌和小說。
3. 編程:除了ChatGPT,微軟的GitHub Copilot和亞馬遜的CodeWhisperer等工具可以讓任何人在幾乎沒有技術知識的情況下輕松生成計算機代碼。
4. 音頻:生成式人工智能工具可以創造類似人類的聲音(語音合成),允許計算機說出人類從未說過的話,以及音樂和聲音效果。
5. 視頻:雖然還沒有像文本或圖像生成那樣先進,但工具已經開始出現,使我們能夠通過描述我們想要看到的內容來創建和編輯視頻。
6. 數據增強:生成式人工智能可以輕松創建完全合成的數據集,用于訓練遵循現實世界規則的其他人工智能模型,而無需對存儲和使用它的人賦予隱私和數據安全義務。
7. 虛擬環境:想想可以探索和互動的虛擬現實(VR)環境或視頻游戲世界,或者相當夸張的虛擬世界概念。設計這些是一項非常復雜的任務,可以在生成人工智能的幫助下大大加速。
它是如何工作的?
就像我們今天看到的所有人工智能一樣,生成式人工智能起源于人工智能研究和實踐的一個領域,即機器學習(ML)。
傳統的計算機算法是由人類編寫的,目的是告訴機器如何準確地完成特定的工作,而機器學習算法得到的數據越多,它們的工作表現就越好。
把這些算法放在一起,讓它們基于所學的知識生成新的數據,你就得到了一個模型——本質上是一個引擎,用于生成特定類型的數據。
生成式人工智能應用中使用的一些模型示例包括:
1. 大型語言模型(llm):通過攝取大量文本,他們學習單詞之間的語義關系,并使用該數據生成更多的語言。法學碩士的一個例子是由OpenAI創建的GPT-4,它為ChatGPT工具提供了動力。
2. 生成對抗網絡(GANs):這是通過讓兩種相互競爭的算法相互競爭來實現的,一種算法的任務是生成與訓練數據相似的數據,另一種算法的任務是試圖判斷輸出是真實的還是生成的。這種類型的生成模型通常用于創建圖像、聲音甚至視頻。
3. 變分自編碼器:這是一種模型,它通過一種簡單的方式對數據進行編碼,捕捉數據的基本特征,然后找出如何重構數據,從而了解數據是如何構造的。它通常用于生成合成數據。
4. 擴散模型:這些模型的工作原理是將隨機數據(稱為“噪聲”)添加到它正在學習的數據中,然后找出如何在保留原始數據的同時刪除它——從而了解哪些是重要的,哪些可以丟棄。擴散模型在圖像生成中最常用。
5. 變形模型:這是包括llm在內的一組模型的總稱,但涵蓋了通過學習訓練數據中不同元素之間的上下文和關系來工作的任何模型。
生成式人工智能的實踐
已經有許多令人難以置信的例子,生成人工智能被用來創造驚人的(有時是可怕的)東西。
以可口可樂的杰作廣告為例,這是人類藝術家和人工智能之間的合作創作,以前所未有的方式將許多歷史上最偉大的藝術作品帶到屏幕上。
它還被用來通過重建約翰·列儂部分錄制的歌詞,結合保羅·麥卡特尼的新材料來創作新的披頭士歌曲。
生成設計是一個新興領域的術語,在這個領域中,生成人工智能被用于創建新產品的藍圖和生產流程。例如,通用汽車(General Motors)使用歐特克(Autodesk)創建的生成工具設計了一種新的安全帶支架,比現有部件輕40%,強度高20%。
它也被用于加速藥物發現,一家英國公司最近宣布,它創造了世界上第一個人工智能生成的免疫療法癌癥治療方法。
生成式人工智能也是最近的深度造假現象背后的技術,這種現象通過讓真實的人看起來好像做過或說過虛假的事情,模糊了現實與虛構之間的界限。
深度假湯姆克魯斯是最早也是最著名的例子之一。更陰險的是,即將到來的2024年美國總統大選雙方的潛在候選人都出演了深度造假,目的是為了政治目的而抹黑他們。
雖然傳播宣傳已經夠糟糕的了,但也有直接的犯罪用途——包括利用克隆聲音進行惡作劇綁架,以及冒充公司首席執行官騙取錢財。
關于生成人工智能的倫理問題
雖然生成式人工智能顯然有驚人的能力,但很明顯,它的存在迫使我們面對一些困難的問題。
也許最大的問題之一是,我們將無法區分真實和人工智能生成的東西。
考慮到該領域的創新速度之快令人難以置信,這很可能很快就會發生。
這就引出了我們應該對此做些什么的問題。包括我國在內的一些國家已經通過立法,規定未經同意對人進行深度造假是非法的——世界各國是否應該效仿?
接下來的問題是,這將如何影響人類的工作——如果雇用他們的公司可以通過告訴計算機來創造他們需要的圖像、聲音和視頻,那么創作者的生計會受到威脅嗎?
另一個需要解決的問題是版權。如果一個人工智能被用來創造一件藝術品,誰擁有它?使用AI創造藝術的人?人工智能本身的創造者?或者所有(可能)成千上萬的藝術家,他們的作品被用來訓練AI?
所有這些問題都需要回答——而且,考慮到這項技術正在加速發展,答案必須盡快揭曉。我們如何回答這些問題,很可能在決定人工智能在社會和我們生活中的未來方面發揮重要作用。