要聞

做空英偉達(dá)的又一理由？螞蟻集團(tuán)發(fā)布最新AI成果：無需高端GPU，計算成本降低20%，訓(xùn)練1萬億Token只需508萬元

每日經(jīng)濟(jì)新聞 2025-03-25 18:39:09

3月24日，螞蟻集團(tuán)Ling團(tuán)隊發(fā)布兩款百靈系列開源混合專家模型Ling-Lite和Ling-Plus。該團(tuán)隊在模型預(yù)訓(xùn)練階段使用較低規(guī)格硬件系統(tǒng)，將計算成本降低約20%，并取得與使用高性能芯片模型相當(dāng)?shù)男Ч?。螞蟻集團(tuán)有關(guān)人士告訴每經(jīng)記者，訓(xùn)練過程中既使用了國產(chǎn)芯片，也使用了英偉達(dá)芯片。

每經(jīng)記者｜宋欣悅每經(jīng)編輯｜蘭素英

長久以來，英偉達(dá)憑借高性能芯片構(gòu)筑起“算力霸權(quán)”，在AI模型訓(xùn)練領(lǐng)域占據(jù)主導(dǎo)地位。這一局面在DeepSeek問世后遭遇到不小的沖擊，如今又面臨著新的挑戰(zhàn)。

3月初，由螞蟻集團(tuán)首席技術(shù)官何征宇帶領(lǐng)的Ling團(tuán)隊發(fā)表了一篇技術(shù)成果論文。

論文顯示，該團(tuán)隊開發(fā)了兩款百靈系列開源混合專家（MoE）模型Ling-Lite（總參數(shù)為16.8B）和Ling-Plus（總參數(shù)為290B）。相比之下，據(jù)《麻省理工科技評論》，GPT-4.5總參數(shù)為1.8T，DeepSeek-R1總參數(shù)為671B。

而驚艷之處在于，Ling團(tuán)隊在模型預(yù)訓(xùn)練階段使用較低規(guī)格的硬件系統(tǒng)，將計算成本降低約20%，訓(xùn)練1萬億Token成本從635萬元降至508萬元，最終取得了與使用高性能芯片（如英偉達(dá)H100、H800等）的模型相當(dāng)?shù)男Ч?/strong>

螞蟻集團(tuán)有關(guān)人士告訴《每日經(jīng)濟(jì)新聞》記者，在模型訓(xùn)練過程中，他們既使用了國產(chǎn)芯片，也采用了英偉達(dá)芯片。

但百靈系列混合專家模型的橫空出世，讓市場再次質(zhì)疑英偉達(dá)的“算力信仰”。HuggingFace工程師Tiezhen Wang在社交媒體上表示，“做空英偉達(dá)的又一理由？”

Tom's Hardware發(fā)表評論稱，螞蟻集團(tuán)此次的技術(shù)突破清晰展現(xiàn)出中國正堅定地朝著技術(shù)獨(dú)立方向邁進(jìn)。

針對此事，3月24日螞蟻集團(tuán)回應(yīng)媒體稱，螞蟻針對不同芯片持續(xù)調(diào)優(yōu)，以降低AI應(yīng)用成本，目前取得了一定的進(jìn)展，也會逐步通過開源分享。

圖片來源：螞蟻集團(tuán)Ling團(tuán)隊最新論文

螞蟻重大突破：不使用高端GPU的情況下將計算成本降低20%

目前，螞蟻集團(tuán)Ling團(tuán)隊的技術(shù)成果論文《每一個FLOP都至關(guān)重要：無需高級GPU即可擴(kuò)展3000億參數(shù)混合專家LING大模型》已發(fā)表在預(yù)印本平臺arXiv上。

螞蟻Ling團(tuán)隊認(rèn)為，正如DeepSeek開源發(fā)布中分析的“晝夜推理負(fù)載不均”問題，在推理服務(wù)高峰期，高性能資源同樣面臨短缺。在長期科研實(shí)踐中，許多機(jī)構(gòu)都持續(xù)面臨著高端AI加速卡供應(yīng)不足的問題。相比之下，性能較低的加速器更易獲得，且單價更低。因此，模型需要能在異構(gòu)計算單元和分布式集群間切換的技術(shù)框架，同時在AI Infra部分，在跨集群、跨設(shè)備的兼容和可靠層面進(jìn)行性能優(yōu)化。

該團(tuán)隊的實(shí)驗結(jié)果表明，參數(shù)規(guī)模為300B左右的混合專家模型可以在性能較低的設(shè)備上有效訓(xùn)練，并在性能上達(dá)到與同規(guī)模的其他模型相當(dāng)?shù)乃健?/span>

以Ling-Plus模型為例，在實(shí)驗中，該模型在五種不同硬件配置下完成9萬億Token的預(yù)訓(xùn)練任務(wù)。經(jīng)測算，使用高性能硬件設(shè)備訓(xùn)練1萬億Token，預(yù)計成本高達(dá)635萬元人民幣，而使用低規(guī)格硬件系統(tǒng)，成本則可控制在約508萬元，節(jié)省近20%。

圖片來源：螞蟻集團(tuán)Ling團(tuán)隊最新論文

在英語理解能力上，Ling-Lite模型在一項關(guān)鍵基準(zhǔn)測試中的表現(xiàn)與Qwen2.5-7B相當(dāng)，優(yōu)于Llama3.1-8B和Mistral-7B-v0.3。

在中文理解能力上，Ling-Lite和Ling-Plus模型表現(xiàn)明顯優(yōu)于海外模型Llama3.1-8B和Mistral-7B-v0.3。在部分基準(zhǔn)測試中，Ling-Plus表現(xiàn)略優(yōu)于DeepSeek-V2.5，與Qwen2.5-7B相當(dāng)。

在數(shù)學(xué)和代碼基準(zhǔn)測試方面，Ling-Lite的表現(xiàn)與Qwen2.5-7B-Instruct相當(dāng)，優(yōu)于Llama3.1-8B和Mistral-7B-v0.3。Ling-Plus的表現(xiàn)優(yōu)于DeepSeek-V2.5，接近Qwen2.5-72B的水平。

圖片來源：螞蟻集團(tuán)Ling團(tuán)隊最新論文

在工具使用方面，大多數(shù)情況下，Ling-Plus和Ling-Lite在基準(zhǔn)測試中均取得了最佳成績。而工具使用對于大語言模型來說是一項重要且具有挑戰(zhàn)性的任務(wù)。工具使用能力使模型能夠作為AI代理工作、控制機(jī)器人系統(tǒng)并與眾多軟件工具集成。

此外，在安全性方面，Ling-Plus和Qwen2.5-7B表現(xiàn)突出，而Ling-Plus在錯誤拒絕方面表現(xiàn)更佳。

提高大模型的無害性（harmlessness）通常會導(dǎo)致其有用性（helpfulness）的降低。測試結(jié)果表明，Ling-Plus在安全性和錯誤拒絕之間整體平衡性上表現(xiàn)最佳。

據(jù)悉，螞蟻百靈大模型Ling-Plus和Ling-Lite將計劃開源，并應(yīng)用于醫(yī)療、金融等行業(yè)領(lǐng)域。

打破英偉達(dá)“算力霸權(quán)”？

有分析稱，百靈系列混合專家模型的推出標(biāo)志著螞蟻集團(tuán)加入AI領(lǐng)域的競賽。自DeepSeek展示出能夠以遠(yuǎn)低于OpenAI和谷歌投入的數(shù)十億美元成本訓(xùn)練出強(qiáng)大模型以來，這一競爭加速升級。

此前，DeepSeek在技術(shù)論文中表示，DeepSeek-V3模型（總參數(shù)671B，激活參數(shù)37B）總訓(xùn)練成本為557.6萬美元，完整訓(xùn)練消耗了278.8萬個GPU小時，幾乎是同等性能水平模型訓(xùn)練所需的十分之一，堪稱“榨干”GPU，也因此引發(fā)了資本市場的恐慌。

對此，英偉達(dá)CEO黃仁勛在公開場合多次贊美DeepSeek，但其認(rèn)為，DeepSeek-R1等更高效的模型出現(xiàn)，反而會刺激計算需求增長。

然而，螞蟻集團(tuán)正在探索一條新的路徑——在無高端GPU的情況下擴(kuò)展模型訓(xùn)練能力。

百靈系列混合專家模型的橫空出世，讓市場再次質(zhì)疑英偉達(dá)的“算力信仰”。HuggingFace工程師Tiezhen Wang在社交媒體上表示，“做空英偉達(dá)的又一理由？”

圖片來源：X

著名硬件媒體Tom's Hardware指出，如果螞蟻集團(tuán)此次技術(shù)突破意味著實(shí)現(xiàn)了（與DeepSeek）類似的AI訓(xùn)練效率飛躍，這極有可能成為（中國）降低對西方技術(shù)依賴進(jìn)程中的又一重要里程碑。

螞蟻集團(tuán)有關(guān)人士告訴《每日經(jīng)濟(jì)新聞》記者，在模型訓(xùn)練過程中，他們既使用了國產(chǎn)芯片，也采用了英偉達(dá)芯片。

Tom's Hardware發(fā)表評論稱，螞蟻集團(tuán)此次技術(shù)突破清晰展現(xiàn)出中國正堅定地朝著技術(shù)獨(dú)立方向邁進(jìn)。

彭博資深商業(yè)智能分析師羅伯特·李（Robert Lea）同樣指出，螞蟻集團(tuán)的研究展示了中國在AI創(chuàng)新方面的快速進(jìn)步，也顯示出本土企業(yè)正朝著AI自給自足的方向邁進(jìn)。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

英偉達(dá) 螞蟻集團(tuán) 大模型開源

上一篇文章

雙杰電氣：簽訂15.55億元日常經(jīng)營重大合同
 返回每經(jīng)網(wǎng)首頁
下一篇文章

晨光股份：3月24日召開董事會會議

相關(guān)文章

DeepSeek最新模型硬剛o1！英偉達(dá)科學(xué)家等大佬：這才配叫OpenAI

AMD火速“站臺”DeepSeek，利空英偉達(dá)？美國私募：GPU市場格局或被改寫！摩根大通也發(fā)文

黃仁勛，身家一夜縮水1500億元！“史詩級”暴跌后，英偉達(dá)回應(yīng)！DeepSeek：受到大規(guī)模惡意攻擊，限制注冊

螞蟻集團(tuán)AI重大突破！

熱文精選

重大項目提速建設(shè) 成都切換“沖刺模式”助力四川攻堅四季度

四川大學(xué)經(jīng)濟(jì)學(xué)院舉行全面推進(jìn)中國式現(xiàn)代化研討會

成都市與清華大學(xué)簽署深化市校合作協(xié)議推動建設(shè)頂尖智庫

“村糖會”橫空出世，背后藏著成都酒產(chǎn)業(yè)的新考量

商場里踢“空中足球”？這項科技運(yùn)動正席卷成都

點(diǎn)擊排行

1 鮑威爾發(fā)表重要講話

2 男子酒后開"智駕"被查

3 新凱來火爆灣芯展現(xiàn)場首日未見光刻機(jī)現(xiàn)身

4 特朗普最新表態(tài)

5 聞泰科技市值蒸發(fā)百億

6 “我們特地趕早來的，你們的光刻機(jī)在哪里？”深圳一家成立才幾年的公司，今天爆火！

7 洛杉磯進(jìn)入緊急狀態(tài)

8 全球央行，狂買黃金

9 金價突破4200美元

10 “私挖300m2地下室致32戶開裂”，涉案業(yè)主是建筑公司老板，擔(dān)任多家公司高管，“他是小區(qū)別墅業(yè)主，有多間臨街商鋪”

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

0

0

四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

做空英偉達(dá)的又一理由？螞蟻集團(tuán)發(fā)布最新AI成果：無需高端GPU，計算成本降低20%，訓(xùn)練1萬億Token只需508萬元

螞蟻重大突破：不使用高端GPU的情況下將計算成本降低20%

打破英偉達(dá)“算力霸權(quán)”？

做空英偉達(dá)的又一理由？螞蟻集團(tuán)發(fā)布最新AI成果：無需高端GPU，計算成本降低20%，訓(xùn)練1萬億Token只需508萬元

打破英偉達(dá)“算力霸權(quán)”？