Q1 為什么DeepSeek出來以后,國家那么積極鼓勵使用?
基于NFL的基本理論(如果還不理解NFL的理論精髓,可以參考前面的文章自己和DeepSeek聊一聊),能力的增長是與問題領域、領域經驗相關的,一個問題領域中,經驗越充分,解決這個領域中問題的方法和能力就越靠譜。
只有積極使用,才能讓DeepSeek變得更強大。
Q2 為什么說“只有積極使用,才能讓DeepSeek變得更強大”?
這句話的關鍵詞是“只有積極使用”,就像之前Google的《Attention is All You Need》一樣,很多人都理解成了Attention很重要,沒認為是 All You Need。
“只有積極使用”,是因為:
- 基于書面知識的訓練遇到了天花板:去年下半年,Meta的一系列研究表明:基于人類書面知識訓練的大模型,能力已經達到了一定的頂峰(這個Paper我當時沒有保存——或者說是保存了忘記放哪里了——現在怎么也搜不到了)。按照NFL的理論,不能在這個方向上繼續投入了,性價比不高,就要找一些出路。
- 基于快速訓練的技術的發展:強化學習、蒸餾,為提高訓練效率給出了很好的方法。
- 需要轉變訓練的問題領域:從知識訓練這個單一的問題領域,轉變到應用領域。之前幾百年的書面知識訓練完成了,下面就是鋪天蓋地的實際應用領域的問題丟給他,這個問答、運用的結果可以繼續微調和訓練大模型。——這也就回答了,為什么關鍵研發、新材料、新技能等等創新領域的業務,不能使用公共大模型的原因,這些對話材料不久就會變成語料重新訓練大模型,你跟他之間對話所產生的創意、創新,都將成為大模型的記憶,公開給用戶了。
Q3 可是我都不知道怎么用大模型啊?
還記得1997年的自己,從學校打著鋪蓋到達連云港市第二人民醫院,學了3年的理論知識,即將進入臨床實習。說句實話,老師也不知道我們這批學生將來會怎樣。我自己更不知道自己將來會怎樣。
唯一一個理念就是:好好活,做有意義的事。
從醫到從事營銷再到從事IT,都是用而知不足,不足而學,學再用,層層迭代。再加上一點不知疲倦。
大模型本身是通了電就能用的,他沒有疲倦的壓力,那不知道怎么用大模型的問題不在知不知道,而是用得少了、隨便用用就放棄了。或者說句難聽的就是,用戶的水平不行——一將無能累死三軍。(用戶對于大模型其實就是工作中的頂頭上司,用戶給的方向錯誤、局限、偏見嚴重,大模型的產出就不行)。
所以,我類比今年的現像就是:
DeepSeek就是個大學,培養了對標北大、清華、耶魯的大學生(距離加州伯克利還有點距離,請允許我對認知科學有成就的大學的一些個人偏見)。
現在開源了,就像這些大學生只要想招,就可以到崗,作為實習生、管培生,分配到任何想要的崗位上去。能不能用好這些頂級大學生,就要看帶教老師的能力了。
我見到一個程序員,跟DeepSeek聊完以后,向我反饋:TMD!聊出了一個開發小組,從產品到UI到架構師到數據庫工程師到前端到后端,都能搞定,甚至還能幫我跟客戶懟兩句URS,之前客戶都說我IT不懂業務,現在我問問DeepSeek業務是啥,URS是否合理,合理的理由是什么,不合理的理由是什么。都能說得頭頭是道。拿著這個去開會,心里有底。——注意很多人都是被人懟敗了回來亡羊補牢去問DeepSeek,這沒用,這個程序員是在接到通知后,在會前問了DeepSeek,就像戰場上提前爬到了上制高點。
所以說,多年以后,這個一流大學的大學生能混成什么樣,主要看帶教老師了。實際上,有很多人,不具備帶教的能力,在用DeepSeek的時候總是找不到下手的地方。
算了,先到這吧,原本還有兩個話題,一是關于相關產業的現像,前面也都提了,感覺不好說得太透,比如為什么現在各個大模型廠家都要做大模型入口,鼓勵你使用他們的大模型,還是免費的,其實就是為了套取訓練材料。二是為什么中央會反對用國外的大模型,前面也提及了。為什么中央會如此鼓勵大模型使用,他們的決策一看就是符合NFL的理論的,是走在科學治國的路線上的。
這一個多月都在為DeepSeek的端到端的工程化忙碌,好不容易休息一天。
本來每年正月十五之前就會安排的當年的第一次山地騎行,也推遲到了今天,很幸運,天氣很好,完美地騎了一圈。
wollaston
2025年03月22日
于連云港