四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

做空英偉達的又一理由?螞蟻集團發(fā)布最新AI成果:無需高端GPU,計算成本降低20%,訓練1萬億Token只需508萬元

每日經濟新聞 2025-03-25 18:39:09

3月24日,螞蟻集團Ling團隊發(fā)布兩款百靈系列開源混合專家模型Ling-Lite和Ling-Plus。該團隊在模型預訓練階段使用較低規(guī)格硬件系統(tǒng),將計算成本降低約20%,并取得與使用高性能芯片模型相當的效果。螞蟻集團有關人士告訴每經記者,訓練過程中既使用了國產芯片,也使用了英偉達芯片。

每經記者 宋欣悅    每經編輯 蘭素英    

長久以來,英偉達憑借高性能芯片構筑起“算力霸權”,在AI模型訓練領域占據主導地位。這一局面在DeepSeek問世后遭遇到不小的沖擊,如今又面臨著新的挑戰(zhàn)。

3月初,由螞蟻集團首席技術官何征宇帶領的Ling團隊發(fā)表了一篇技術成果論文。

論文顯示,該團隊開發(fā)了兩款百靈系列開源混合專家(MoE)模型Ling-Lite(總參數為16.8B)和Ling-Plus(總參數為290B)。相比之下,據《麻省理工科技評論》,GPT-4.5總參數為1.8T,DeepSeek-R1總參數為671B。

而驚艷之處在于,Ling團隊在模型預訓練階段使用較低規(guī)格的硬件系統(tǒng),將計算成本降低約20%,訓練1萬億Token成本從635萬元降至508萬元,最終取得了與使用高性能芯片(如英偉達H100、H800等)的模型相當的效果。

螞蟻集團有關人士告訴《每日經濟新聞》記者,在模型訓練過程中,他們既使用了國產芯片,也采用了英偉達芯片。

但百靈系列混合專家模型的橫空出世,讓市場再次質疑英偉達的“算力信仰”。HuggingFace工程師Tiezhen Wang在社交媒體上表示,“做空英偉達的又一理由?”

Tom's Hardware發(fā)表評論稱,螞蟻集團此次的技術突破清晰展現(xiàn)出中國正堅定地朝著技術獨立方向邁進。

針對此事,3月24日螞蟻集團回應媒體稱,螞蟻針對不同芯片持續(xù)調優(yōu),以降低AI應用成本,目前取得了一定的進展,也會逐步通過開源分享。

圖片來源:螞蟻集團Ling團隊最新論文

螞蟻重大突破:不使用高端GPU的情況下將計算成本降低20%

目前,螞蟻集團Ling團隊的技術成果論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數混合專家LING大模型》已發(fā)表在預印本平臺arXiv上。

螞蟻Ling團隊認為,正如DeepSeek開源發(fā)布中分析的“晝夜推理負載不均”問題,在推理服務高峰期,高性能資源同樣面臨短缺。在長期科研實踐中,許多機構都持續(xù)面臨著高端AI加速卡供應不足的問題。相比之下,性能較低的加速器更易獲得,且單價更低。因此,模型需要能在異構計算單元和分布式集群間切換的技術框架,同時在AI Infra部分,在跨集群、跨設備的兼容和可靠層面進行性能優(yōu)化。

該團隊的實驗結果表明,參數規(guī)模為300B左右的混合專家模型可以在性能較低的設備上有效訓練,并在性能上達到與同規(guī)模的其他模型相當的水平。

以Ling-Plus模型為例,在實驗中,該模型在五種不同硬件配置下完成9萬億Token的預訓練任務。經測算,使用高性能硬件設備訓練1萬億Token,預計成本高達635萬元人民幣,而使用低規(guī)格硬件系統(tǒng),成本則可控制在約508萬元,節(jié)省近20%。

圖片來源:螞蟻集團Ling團隊最新論文

在英語理解能力上,Ling-Lite模型在一項關鍵基準測試中的表現(xiàn)與Qwen2.5-7B相當,優(yōu)于Llama3.1-8B和Mistral-7B-v0.3。

在中文理解能力上,Ling-Lite和Ling-Plus模型表現(xiàn)明顯優(yōu)于海外模型Llama3.1-8B和Mistral-7B-v0.3。在部分基準測試中,Ling-Plus表現(xiàn)略優(yōu)于DeepSeek-V2.5,與Qwen2.5-7B相當。

在數學和代碼基準測試方面,Ling-Lite的表現(xiàn)與Qwen2.5-7B-Instruct相當,優(yōu)于Llama3.1-8B和Mistral-7B-v0.3。Ling-Plus的表現(xiàn)優(yōu)于DeepSeek-V2.5,接近Qwen2.5-72B的水平。

圖片來源:螞蟻集團Ling團隊最新論文

在工具使用方面,大多數情況下,Ling-Plus和Ling-Lite在基準測試中均取得了最佳成績。而工具使用對于大語言模型來說是一項重要且具有挑戰(zhàn)性的任務。工具使用能力使模型能夠作為AI代理工作、控制機器人系統(tǒng)并與眾多軟件工具集成。

此外,在安全性方面,Ling-Plus和Qwen2.5-7B表現(xiàn)突出,而Ling-Plus在錯誤拒絕方面表現(xiàn)更佳。

提高大模型的無害性(harmlessness)通常會導致其有用性(helpfulness)的降低。測試結果表明,Ling-Plus在安全性和錯誤拒絕之間整體平衡性上表現(xiàn)最佳。

據悉,螞蟻百靈大模型Ling-Plus和Ling-Lite將計劃開源,并應用于醫(yī)療、金融等行業(yè)領域。

打破英偉達“算力霸權”?

有分析稱,百靈系列混合專家模型的推出標志著螞蟻集團加入AI領域的競賽。自DeepSeek展示出能夠以遠低于OpenAI和谷歌投入的數十億美元成本訓練出強大模型以來,這一競爭加速升級。 

此前,DeepSeek在技術論文中表示,DeepSeek-V3模型(總參數671B,激活參數37B)總訓練成本為557.6萬美元,完整訓練消耗了278.8萬個GPU小時,幾乎是同等性能水平模型訓練所需的十分之一,堪稱“榨干”GPU,也因此引發(fā)了資本市場的恐慌。

對此,英偉達CEO黃仁勛在公開場合多次贊美DeepSeek,但其認為,DeepSeek-R1等更高效的模型出現(xiàn),反而會刺激計算需求增長。

然而,螞蟻集團正在探索一條新的路徑——在無高端GPU的情況下擴展模型訓練能力。 

百靈系列混合專家模型的橫空出世,讓市場再次質疑英偉達的“算力信仰”。HuggingFace工程師Tiezhen Wang在社交媒體上表示,“做空英偉達的又一理由?”

圖片來源:X

著名硬件媒體Tom's Hardware指出,如果螞蟻集團此次技術突破意味著實現(xiàn)了(與DeepSeek)類似的AI訓練效率飛躍,這極有可能成為(中國)降低對西方技術依賴進程中的又一重要里程碑。

螞蟻集團有關人士告訴《每日經濟新聞》記者,在模型訓練過程中,他們既使用了國產芯片,也采用了英偉達芯片。 

Tom's Hardware發(fā)表評論稱,螞蟻集團此次技術突破清晰展現(xiàn)出中國正堅定地朝著技術獨立方向邁進。

彭博資深商業(yè)智能分析師羅伯特·李(Robert Lea)同樣指出,螞蟻集團的研究展示了中國在AI創(chuàng)新方面的快速進步,也顯示出本土企業(yè)正朝著AI自給自足的方向邁進。

如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

英偉達 螞蟻集團 大模型 開源

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0