每日經(jīng)濟新聞 2025-02-02 23:13:01
DeepSeek大模型的低成本高效能,不僅挑戰(zhàn)了硅谷巨頭,也讓華爾街感到焦慮。復(fù)旦大學(xué)計算機學(xué)院副教授鄭驍慶認(rèn)為,DeepSeek在工程優(yōu)化方面取得了顯著成果,實現(xiàn)了性能與成本的平衡。但他指出,DeepSeek并不會對芯片采購量或出貨量產(chǎn)生太大的影響,相反,隨著更多企業(yè)加入到大模型的應(yīng)用行列,對芯片的需求可能會增加。
每經(jīng)記者 宋欣悅 每經(jīng)編輯 高涵
近日,中國AI初創(chuàng)公司深度求索(DeepSeek)在全球掀起波瀾,硅谷巨頭恐慌,華爾街焦慮。
短短一個月內(nèi),DeepSeek-V3和DeepSeek-R1兩款大模型相繼推出,其成本與動輒數(shù)億甚至上百億美元的國外大模型項目相比堪稱低廉,而性能與國外頂尖模型相當(dāng)。
作為“AI界的拼多多”,DeepSeek還動搖了英偉達的“算力信仰”,旗下模型DeepSeek-V3僅使用2048塊英偉達H800 GPU,在短短兩個月內(nèi)訓(xùn)練完成。除了性價比超高,DeepSeek得到如此高的關(guān)注度,還有另一個原因——開源。DeepSeek徹底打破了以往大型語言模型被少數(shù)公司壟斷的局面。
被譽為“深度學(xué)習(xí)三巨頭”之一的楊立昆(Yann LeCun)在社交平臺X上表示,這不是中國追趕美國的問題,而是開源追趕閉源的問題。OpenAI首席執(zhí)行官薩姆·奧爾特曼(Sam Altman)則罕見地表態(tài)稱,OpenAI在開源AI軟件方面“一直站在歷史的錯誤一邊”。
DeepSeek具有哪些創(chuàng)新之處?DeepSeek的開源策略對行業(yè)有何影響?算力與硬件的主導(dǎo)地位是否會逐漸被削弱?
針對上述疑問,《每日經(jīng)濟新聞》記者(以下簡稱NBD)專訪了復(fù)旦大學(xué)計算機學(xué)院副教授、博士生導(dǎo)師鄭驍慶。他認(rèn)為,DeepSeek在工程優(yōu)化方面取得了顯著成果,特別是在降低訓(xùn)練和推理成本方面。“在業(yè)界存在著兩個法則,一個是規(guī)模法則(Scaling Law),另外一個法則是指,隨著技術(shù)的不斷發(fā)展,在既有技術(shù)基礎(chǔ)上持續(xù)改進,能夠大幅降低成本。”
對于DeepSeek選擇的開源策略,鄭驍慶指出,“開源模型能夠吸引全世界頂尖人才進行優(yōu)化,對模型的更新和迭代有加速作用。”此外,開源模型的透明性有助于消除使用安全的顧慮,促進全球范圍內(nèi)人工智能技術(shù)的公平應(yīng)用。
盡管DeepSeek的模型降低了算力需求,但鄭驍慶強調(diào),AI模型仍需要一定的硬件基礎(chǔ)來支持大規(guī)模訓(xùn)練和推理。此外,大規(guī)模數(shù)據(jù)中心和預(yù)訓(xùn)練仍是AI發(fā)展的重要組成部分,但未來可能會更注重高質(zhì)量數(shù)據(jù)的微調(diào)和強化學(xué)習(xí)。
鄭驍慶 圖片來源:受訪者供圖
NBD:微軟CEO薩提亞·納德拉在微軟2024年第四季度財報電話會上提到,DeepSeek“有一些真正的創(chuàng)新”。在您看來,DeepSeek有哪些創(chuàng)新點呢?
鄭驍慶:在深入研讀DeepSeek的技術(shù)報告后,我們發(fā)現(xiàn),DeepSeek在降低模型訓(xùn)練和推理成本方面采用的方法,大多基于業(yè)界已有的技術(shù)探索。比如,鍵值緩存(Key-Value cache)管理,對緩存數(shù)據(jù)進行壓縮。另一個是混合專家模型(MoE,Mixture of Experts),實際上是指,在推理的時候,只需使用模型的某一個特定的模塊,而不需要所有模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)都參與這個推理過程。
此外,Deepseek還采用了FP8混合精度訓(xùn)練的技術(shù)手段。這些其實之前都有所探索,而DeepSeek的創(chuàng)新之處就在于,很好地將這些能夠降低技術(shù)和推理成本的技術(shù)整合起來。
NBD:您認(rèn)為DeepSeek現(xiàn)階段的技術(shù)水平上是否已經(jīng)接近或者達到了全球領(lǐng)先水平呢?
鄭驍慶:DeepSeek目前在現(xiàn)有技術(shù)基礎(chǔ)上,包括網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練算法方面,實現(xiàn)了一種階段性的改進,并非是一種本質(zhì)上的顛覆性創(chuàng)新,這一點是比較明確的。其改進主要是針對特定任務(wù),例如,DeepSeek在數(shù)學(xué)、代碼處理以及推理任務(wù)等方面,提出了一種在性能與成本上相對平衡的解決方案。然而,它在開放領(lǐng)域(open domain)上的表現(xiàn),優(yōu)勢并不是十分明顯。
在業(yè)界存在著兩個法則,一個是規(guī)模法則(Scaling Law),即模型的參數(shù)規(guī)模越大、訓(xùn)練數(shù)據(jù)越多,模型就會更好。另外一個法則是指,隨著技術(shù)的不斷發(fā)展,在既有技術(shù)基礎(chǔ)上持續(xù)改進,能夠大幅降低成本。
比如說,以GPT-3為例,早期它的成本就很高。但隨著研究的深入,研究人員逐漸清楚哪些東西是工作的,哪些東西是不工作的。研究人員基于過往的成功經(jīng)驗,研究目標(biāo)會逐漸清晰,成本實際上也會隨之降低。
DeepSeek的成功,我更覺得可能是工程優(yōu)化上的成功。當(dāng)然也非常高興看到中國的科技企業(yè)在大模型的時代,在性能與成本的平衡方面取得了顯著進展,不斷推動大模型的使用和訓(xùn)練成本下降。符合剛才我提到的第二個法則的情況之下,走到世界前列。
NBD:DeepSeek旗下模型的最大亮點之一是在訓(xùn)練和推理過程中顯著降低了算力需求。您認(rèn)為這種低成本大效能的技術(shù)創(chuàng)新,長期來看,會對英偉達等芯片公司產(chǎn)生什么影響呢?
鄭驍慶:我個人認(rèn)為,它并不會對芯片采購量或出貨量產(chǎn)生太大的影響。
首先,像DeepSeek或者類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。所謂的消融實驗,即指通過一系列測試來確定哪個方案是有效的以及哪些方案的整合是有效的。而這些測試就非常依賴于芯片,因為芯片越多,迭代次數(shù)就越多,就越容易知道哪個東西工作或者哪個東西不工作。
比如說,DeepSeek的訓(xùn)練預(yù)算不到600萬美元。它的技術(shù)報告中提到,不到600萬美元的資金,是按照GPU的小時數(shù)(每小時兩美元)來估算的。也就是說,他們基于之前的很多研究,把整條訓(xùn)練流程都已經(jīng)搞清楚的情況之下(哪些是工作,哪些不工作的),重新走一遍。它的GPU的運算速度是多少,運算小時數(shù)是多少,然后再乘以每小時兩美元得到的這個結(jié)果。報告中也提到了,600萬美元其實沒有包含先期研究成本,比如,在結(jié)構(gòu)上的探索、在算法上的探索、在數(shù)據(jù)上采收集上的探索的成本,也沒有涵蓋消融實驗的開銷以及設(shè)備的折舊費。所以,我個人判斷,對英偉達其實影響不是那么大。
另外,DeepSeek的研究表明,很多中小企業(yè)都能用得起這樣的大模型。盡管訓(xùn)練成本的下降可能會暫時減少對GPU的需求,但大模型變得更加經(jīng)濟,會使原本因為模型成本太高而不打算使用大模型的企業(yè),加入到使用模型的行列,反而會增加對于芯片的需求。
NBD:隨著DeepSeek-V3、R1等低成本大模型的問世,傳統(tǒng)的大規(guī)模數(shù)據(jù)中心和高投入的大模型訓(xùn)練是否仍然值得繼續(xù)推進呢?
鄭驍慶:我覺得仍然值得。因為首先DeepSeek模型是語言模型,還沒有擴展到多模態(tài),甚至于我們以后要研究世界模型。那么一旦引入多模態(tài)之后,對算力的要求和基礎(chǔ)設(shè)施要求就會成指數(shù)的增長。因為人工智能不可能僅僅局限于語言體本身,語言只是智慧的一種表現(xiàn),而在這方面的探索仍然需要這樣的一個基礎(chǔ)設(shè)施。
剛才也提到DeepSeek其實是在很多先期研究的基礎(chǔ)之上,找到了一條性能和成本平衡的一個解決方案。先期研究包括各種各樣的嘗試,怎樣去加速它呢?這個還是需要強大的硬件支持。否則,每迭代一次,就可能需要長達一年多的時間,這顯然是無法趕上現(xiàn)在AI軍備競賽的。而如果有幾萬張卡,迭代可能幾天就完成了。
另外就是應(yīng)用方面。即便是模型的推理成本再低,當(dāng)需要支持?jǐn)?shù)千、數(shù)萬甚至更大規(guī)模的并發(fā)使用時,仍然需要一個配備大量顯卡的強大基礎(chǔ)架構(gòu)來確保穩(wěn)定運行。
我覺得大規(guī)模預(yù)訓(xùn)練這一波潮流可能會弱化,可能不會成為下一步大家爭奪的主戰(zhàn)場。之前這個領(lǐng)域曾是競爭激烈的戰(zhàn)場,但現(xiàn)在看來,成本和產(chǎn)出之間的比例正逐漸趨于緊縮。但是后面兩步——高質(zhì)量數(shù)據(jù)的微調(diào)和基于強化學(xué)習(xí)的人類偏好對齊,我相信未來會有更多的投入。
NBD:DeepSeek采用開源模式,與許多國外大模型巨頭閉源的做法不同。您怎么看開源模型在推動AI行業(yè)發(fā)展中的作用?
鄭驍慶:DeepSeek目前受到了廣泛地關(guān)注和認(rèn)可。從開源模型與閉源模型的角度來看,我們觀察到,開源模型在積累了以往研究成果的基礎(chǔ)上,在目標(biāo)明確的情況之下,借助于各種訓(xùn)練技巧以及模型結(jié)構(gòu)上的優(yōu)化,特別是吸收先前研究者在大模型領(lǐng)域已驗證有效的原理和方法,開源模型已能夠大致追上閉源模型。
開源模型最大的好處就在于,一旦模型開源,全球的頂尖人才都能基于這些代碼進行進一步的迭代與優(yōu)化,這無疑加速了這個模型的更新與發(fā)展進程。相比之下,閉源模型肯定是沒有這樣的能力的,只能靠擁有這個閉源模型所屬機構(gòu)的內(nèi)部人才去推動模型的迭代,迭代速度相對受限。
另外,開源模型透明開放,也緩解了公眾對于大模型使用安全的一些顧慮。如果模型閉源,大家在使用過程當(dāng)中可能或多或少會有一些顧慮。而且開源模型對于人工智能的普及以及全球范圍內(nèi)的公平應(yīng)用起到了非常好的促進作用,特別是技術(shù)平權(quán)方面。也就是說,當(dāng)一項科學(xué)技術(shù)發(fā)展起來以后,全世界的人,不管來自哪個國家、身處何地,都應(yīng)用享有平等地享受這種技術(shù)所帶來的優(yōu)勢及其產(chǎn)生的經(jīng)濟效益。
NBD:DeepSeek團隊成員多為國內(nèi)頂尖高校的應(yīng)屆畢業(yè)生、在校博士生。您認(rèn)為中國AI是否存在獨特的競爭優(yōu)勢?
鄭驍慶:我覺得我們的AI上面的競爭優(yōu)勢,其實是我們的人才數(shù)量上的優(yōu)勢。這幾年,從我個人來看,我們的高等教育,包括碩士、博士的培養(yǎng),有了長足進步。現(xiàn)在從中國的頭部高校來看,對博士生、碩士生的培養(yǎng)已經(jīng)比較接近于美國。
在這樣的情況之下,我們的基礎(chǔ)高等教育質(zhì)量的提升,使得我們儲備了大量的人才。在這樣的過程當(dāng)中,我們能夠?qū)ΜF(xiàn)有的技術(shù)進行迅速的消化。
實際上,美國許多大模型研究團隊,不乏有華人的身影。大家開玩笑說,現(xiàn)在的人工智能競爭是在中國的中國人和在美國的中國人競爭。要說劣勢,其實我覺得還是很遺憾的,那就是我們很少能有顛覆性的創(chuàng)新。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP