數據科學簡訊 2023-02-22

頭條

Roblox 正在整合生成式人工智能

熱門在線游戲 Roblox 將生成式 AI 引入其游戲世界，讓玩家能夠使用其代碼編寫能力，使其數字世界更加可定制。該工具讓 Roblox 用戶可以創建建筑物、地形和頭像等項目；改變那些東西的外觀和行為；并通過用自然語言而不是復雜的代碼鍵入他們想要實現的內容來為他們提供新的交互屬性。

人工智能被用于呼叫中心

人工智能在工作場所的戰斗已經開始，它的第一個戰場是呼叫中心，人工智能被用來自動化基本任務，并指導剩下的人如何完成他們的工作。對于工人來說，該技術有望消除枯燥、重復性任務（如數據處理和密碼重置）的苦差事，同時合成可立即訪問的大量信息。

研究

通過性能改進編輯將代碼速度提高 2.5 倍

編譯器非常適合優化代碼，但也只能做這么多。這項工作發布了一個數據集和模型，可以編輯代碼以提高運行時性能。這項工作背后的直覺是，語言模型可能對代碼有更好的語義理解，這比標準靜態分析更具優勢。

用法律保證Alignment

向語言模型代理指定所有可能的期望結果是不可行的。 Alignment 通過多種視角研究這個問題，其中一個新視角是法律合同。法律合同面臨著類似的問題，因為它們無法預測每一個“如果-那么”的場景，而是要求交易雙方根據優先順序對協議的精神進行推理。本文探討了 SOTA 語言模型對合同中的信托義務進行類似推理的能力。最新的 OpenAI 模型比以前的版本要好得多，表明對齊可能取得積極進展！

小樣本區域感知機器翻譯的基準 (Git Repo)

機器翻譯系統不允許用戶指定他們想要翻譯成哪種語言的區域變體，這可能會導致混淆或不自然的翻譯。為了解決這個問題，谷歌研究人員創建了一個名為 FRMT 的評估數據集，以衡量 MT 系統支持區域多樣性的能力，特別是巴西與歐洲葡萄牙語以及大陸與臺灣普通話。他們希望這個數據集能夠激發新的方法，為世界范圍內使用的眾多區域語言變體創建更準確和適用的 MT 系統。

工程

在單個 GPU 上運行大型語言模型 (GitHub Repo)

FlexGen 是一種高吞吐量生成引擎，用于運行具有有限 GPU 內存的大型語言模型。在有限的內存環境中，它通過“閃電般快速”的卸載來提高性能。在 OPT175B 的 T4 上，基準顯示每秒處理 1 個Token！

為Rust 基礎的深度學習框架(GitHub Repo)**

如果您正在尋找一個寫得很好的新的 Rust 深度學習框架，burn 似乎是一個不錯的選擇。他們的 Tensor crate 很適合獨立使用。如果您希望為開源項目做出貢獻，這也是一個有趣的庫。

使用 T2I 適配器對文本到圖像的生成進行精細控制(GitHub Repo)

這項工作建議使用 T2I 適配器通過將 T2I 模型中的內部知識與外部控制信號對齊來更精細地控制生成。這種方法可以實現豐富的控制和編輯效果，由于其可組合性和泛化能力，具有實用價值。根據廣泛的實驗，擬議的 T2I-Adapter 顯示出有前途的生成質量和廣泛的應用。

雜七雜八

作者 Ethan Mollick 記錄了他如何將 ChatGPT 整合到賓夕法尼亞大學沃頓商學院的本科和碩士創業和創新課程中。一門課程建立在廣泛使用人工智能的基礎上：它要求學生使用人工智能來幫助他們產生想法、制作書面材料、幫助創建應用程序、生成圖像等等。另一個班級的作業要求學生使用 AI，而其他作業則 AI 是可選的。最后一堂課向他們介紹了 AI 工具并提出了使用建議，但沒有具體的 AI 作業。劇透警告：它非常成功，但也有一些教訓需要吸取。

通過達爾文式進化改進自身的人工智能

谷歌的一個計算機科學家團隊創建了 AutoML-Zero，這是一種新的機器學習程序，無需人工輸入即可生成算法，選擇最佳算法，然后通過類似于進化的過程對其進行變異。結果是機器有效地自學。

媒體對 OpenAI 使用他們的文章來訓練 ChatGPT 感到不安

包括《華爾街日報》和 CNN 在內的主要媒體機構對 OpenAI 使用他們的文章來訓練 ChatGPT 而不付錢感到不安。

NASA 的新型氣球載望遠鏡采用 AI 設計

AI 被用于快速設計 NASA 的新型氣球載望遠鏡，考慮到人類設計新望遠鏡通常需要多長時間，這是一項重大進展。

人工智能如何幫助應對災難

本文深入探討了土耳其和敘利亞的人道主義團隊如何使用人工智能，特別指出人工智能能夠快速確定地震破壞范圍并制定救援工作戰略。

2023 MAD（機器學習、人工智能和數據）格局

馬特圖爾克 (Matt Turck) 最新發布的 MAD Landscape 帖子.這是對 2023 年數據生態系統的詳細介紹，強烈推薦。

ChatGPT 在做什么……以及它有用？

對大型語言模型的內部工作原理的精彩介紹。這是一篇很長的讀物，但它很容易理解并且值得一讀。

創建數據清理工作流程

很棒的三部分教程，介紹了如何創建數據清理工作流程。第 1 部分討論了構成干凈數據集的要素以及需要考慮的更改。第 2 部分描述了要考慮的工作流程步驟和文檔。第 3 部分介紹了一個真實世界的示例。這里有很多見解和細節。

rang：讓古老的 R 代碼再次運行

可重復性是 R 社區的一大關注點，但情況并非總是如此。尤其是舊代碼，在編寫時不一定是面向未來的。輸入響鈴。 rang 是一個新的 R 包，有助于使舊代碼再次運行，它支持從 2005 年開始一直追溯到 R 2.1.0 的代碼！這是它的作用以及如何使用它。

dstack (Git Repo)

dstack 是一種開源工具，可讓您獨立于環境運行可重現的 ML 工作流。它允許在本地或云端運行 ML 工作流，此外，dstack 還有助于跨團隊對數據和模型進行版本控制和重用。

ggplot技巧

使用 ggplot2的提示和技巧的不錯集合。分為啟動、拼接美學、半幾何、發散尺度中點、多面標簽和重用圖的提示等部分。

PyGWalker

PyGWalker 是一個 Python 庫，可以在您的筆記本中進行探索性數據分析。從本質上講，它可以讓您將 pandas 數據框轉換為 Tableau 風格的界面以進行可視化探索。支持 Jupyter、Google Colab 和 Kaggle 筆記本。

一個很好的 Twitter，其中包含大量使用 Matplotlib 制作圖表的資源和想法。

SciencePlots - Matplotlib styles for scientific plotting
plotnine - A Grammar of Graphics for Python
matplotx - Styles and useful extensions for Matplotlib
Seaborn - A library for making statistical graphics in Python
Aquarel - Styling Matplotlib made easy
TUEplots - Extend Matplotlib for scientific publications

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,030評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,310評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,951評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,796評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,566評論 6贊 407
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,055評論 1贊 322
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,142評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,303評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,799評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,683評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,899評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,409評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,135評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,520評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,757評論 1贊 282
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,528評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,844評論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

數據科學簡訊 2023-02-22

數據科學簡訊 2023-02-22

頭條

Roblox 正在整合生成式人工智能

人工智能被用于呼叫中心

研究

通過性能改進編輯將代碼速度提高 2.5 倍

用法律保證Alignment

用法律保證Alignment

小樣本區域感知機器翻譯的基準 (Git Repo)

工程

在單個 GPU 上運行大型語言模型 (GitHub Repo)

為Rust 基礎的深度學習框架(GitHub Repo)**

使用 T2I 適配器對文本到圖像的生成進行精細控制(GitHub Repo)

雜七雜八

我的課程需要人工智能。這是我到目前為止所學到的

通過達爾文式進化改進自身的人工智能

媒體對 OpenAI 使用他們的文章來訓練 ChatGPT 感到不安

NASA 的新型氣球載望遠鏡采用 AI 設計

人工智能如何幫助應對災難

2023 MAD（機器學習、人工智能和數據）格局

ChatGPT 在做什么……以及它有用？

創建數據清理工作流程

rang：讓古老的 R 代碼再次運行

dstack (Git Repo)

ggplot技巧

PyGWalker

一個很好的 Twitter，其中包含大量使用 Matplotlib 制作圖表的資源和想法。

推薦閱讀更多精彩內容

數據科學 簡訊 2023-02-22

頭條

研究

工程

雜七雜八

一個很好的 Twitter，其中包含大量使用 Matplotlib 制作圖表的資源和想法。

推薦閱讀更多精彩內容

數據科學簡訊 2023-02-22

一個很好的 Twitter，其中包含大量使用 Matplotlib 制作圖表的資源和想法。