頭條
Andrej Karpathy 離開 OpenAI
OpenAI 創始成員、特斯拉 Autopilot 團隊前負責人 Andrej Karpathy 宣布離開 OpenAI,專注于個人項目。 他的退出并不是由于任何特定事件、問題或戲劇性事件。
NVIDIA 的新聊天機器人可以在PC 上本地運行
https://www.engadget.com/nvidias-new-ai-chatbot-runs-locally-on-your-pc-163406121.html
NVIDIA 推出了 Chat with RTX 演示,這是一個本地 PC 運行的聊天機器人,可以分析和總結各種文件格式的個人數據,甚至可以集成 YouTube 視頻中的知識,旨在打造更加個性化的數字助理體驗。 這項創新不需要云處理或敏感數據的互聯網連接,目前僅限于配備特定 NVIDIA GPU 的 Windows PC。
研究
視頻語言模型可以回答有關長達一小時的視頻的問題
https://largeworldmodel.github.io/
該模型使用環注意力和微調的 7B 參數模型來準確回答百萬令牌視頻長度問題。 它的性能優于商業 VLM,并且在檢索基準方面具有極其準確的性能。
Lumiere 文本到視頻模型
https://lumiere-video.github.io/
谷歌有一個新的文本到視頻模型,可以幫助將圖像和樣式作為輸入。 它使用一種新穎的“時空UNet”來一次性擴散一切。
利用創意 AI 轉場制作長視頻
https://vchitect.github.io/SEINE-project/
SEINE 是一種以文本描述為指導的創新視頻傳播模型,旨在將人工智能生成的短視頻剪輯擴展為更長的故事級序列,并具有無縫和富有想象力的場景過渡。
工程
MaGNET 音頻生成模型 (GitHub Repo)
https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md
Facebook 發布了最先進的開源音頻模型,其速度比其他模型快 7 倍,且質量不受影響。 它可以生成音樂和聲音效果。 該論文現已上市。
大型語言模型中的隱私 (GitHub Repo)
https://github.com/iamgroot42/mimir
研究人員進行了一項全面的研究,探討是否有可能判斷一個數據點是否用于訓練大型語言模型。 他們測試了各種模型,發現在大多數情況下,這些攻擊并不比隨機猜測更好。
值得信賴的自治代理 (GitHub Repo)
https://github.com/AAAI-DISIM-UnivAQ/DALI
該項目引入了先進的方法,以確保在依賴生命的應用中至關重要的自主智能代理即使在不斷發展的過程中也能保持可信和道德。
雜七雜八
為什么“談論你的數據”比你想象的更難
https://www.arcus.co/blog/chat
構建特定領域、基于聊天的 LLM 應用程序和副駕駛比人們想象的要困難。 其中一些挑戰包括實現穩健的性能、處理復雜的數據和復雜的查詢,以及為基于 LLM 的聊天應用程序實現穩健的數據檢索。
無遮罩的文本驅動圖像編輯
https://yuanze-lin.me/LearnableRegions_page/
研究人員開發了一種基于文本提示編輯圖像的獨特方法。 這種方法使用文本到圖像模型和邊界框生成器來識別要編輯的區域,從而無需遮罩或草圖即可進行更改。
用于增強視頻分類的視頻注釋器 (GitHub Repo)
https://github.com/netflix/videoannotator
視頻注釋器框架讓領域專家直接參與注釋過程。 這種新方法將人類專業知識與零樣本和主動學習技術相結合,提高了模型的準確性和效率。
PressPulse (Product)
https://www.presspulse.ai/
使用人工智能建立媒體提及。
英偉達現在的市值相當于整個中國股市的市值
https://finance.yahoo.com/news/nvidia-now-worth-much-whole-010315545.html
得益于人工智能的蓬勃發展,NVIDIA 的市值已達到 1.7 萬億美元,相當于所有在香港證券交易所上市的中國公司的市值總和。
Reor (GitHub Repo)
https://github.com/reorproject/reor
一款在本地運行模型的人工智能筆記應用程序。