要聞

字節(jié)豆包直面AI視頻降本難題，壓力給到了誰？

每日經(jīng)濟新聞 2024-10-16 22:16:16

10月15日，火山引擎在視頻云技術(shù)大會上發(fā)布大模型訓(xùn)練視頻預(yù)處理方案。對于目前AI視頻產(chǎn)品的“爆發(fā)”，北京市社會科學(xué)院副研究員王鵬表示，國內(nèi)AI視頻產(chǎn)品正處于快速發(fā)展和不斷迭代的階段，主要因為市場需求旺盛、應(yīng)用場景廣泛和商業(yè)化模式多樣等。

每經(jīng)記者｜楊昕怡每經(jīng)編輯｜魏官紅

自Sora橫空出世開辟了AI視頻的新紀(jì)元以來，國內(nèi)外各大玩家陸續(xù)加入AI視頻的競逐賽。但是，當(dāng)進入這一更交互、更沉浸的視頻新時代，又該如何應(yīng)對成本、質(zhì)量和性能方面的挑戰(zhàn)？

10月15日，火山引擎聯(lián)合英特爾共同在視頻云技術(shù)大會上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案?！睹咳战?jīng)濟新聞》記者在發(fā)布會現(xiàn)場了解到，目前該技術(shù)方案已應(yīng)用于豆包視頻生成模型。

發(fā)布會上，Bytedance Research負(fù)責(zé)人李航介紹，豆包視頻生成模型PixelDance在訓(xùn)練過程中采用了火山引擎的大模型訓(xùn)練視頻預(yù)處理方案，充分利用了大量潮汐資源，為模型訓(xùn)練提供了有力支撐。

此外，抖音集團視頻架構(gòu)負(fù)責(zé)人王悅透露了字節(jié)自研視頻編解碼芯片的最新進展：經(jīng)過抖音集團內(nèi)部的實踐驗證，該芯片在同等視頻壓縮效率下，成本節(jié)省了95%以上。

“首先，超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計算和處理成本激增。”王悅指出大模型廠商在預(yù)處理過程中面臨諸多挑戰(zhàn)，“其次是視頻樣本數(shù)據(jù)參差不齊，然后是處理鏈路環(huán)節(jié)多、工程復(fù)雜，最后還面臨著對GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署。”

圖片來源：每經(jīng)記者楊昕怡攝

自研多媒體處理框架，豆包直面AI視頻降本難題

在9月24日的火山引擎AI創(chuàng)新巡展上，豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一并發(fā)布，吸引業(yè)內(nèi)外人士關(guān)注。其實，字節(jié)跳動在視頻生成模型上下的功夫不止于此。

10月15日，火山引擎發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案，致力于解決視頻大模型訓(xùn)練的成本、質(zhì)量和性能等方面的技術(shù)挑戰(zhàn)。

據(jù)介紹，對訓(xùn)練視頻進行預(yù)處理是保障大模型訓(xùn)練效果的重要前提。預(yù)處理過程可以統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息，從而使模型能更高效地學(xué)習(xí)視頻中的特征和知識，提升訓(xùn)練效果和效率。

在視頻生成模型的訓(xùn)練中，算力成本無疑是首屈一指的挑戰(zhàn)。

一位國內(nèi)視頻生成模型的算法工程師在接受《每日經(jīng)濟新聞》記者采訪時表示，在擁有高質(zhì)量數(shù)據(jù)后，視頻模型會比大語言模型更難訓(xùn)練，有更多的算力需求，“目前已知的開源視頻模型沒有特別大，主要是目前很多視頻模型處于不知道如何使用數(shù)據(jù)的階段，（用于訓(xùn)練的）高質(zhì)量數(shù)據(jù)也沒有特別多。”

計算機科學(xué)家Matthias Plappert的研究也顯示，Sora的訓(xùn)練對算力規(guī)模的要求巨大，在訓(xùn)練環(huán)節(jié)大約需要在4200～10500張NVIDIA H100上訓(xùn)練1個月，且當(dāng)模型生成到推理環(huán)節(jié)以后，計算成本將迅速超過訓(xùn)練環(huán)節(jié)。

為了解決降本難題，火山引擎借助Intel的CPU等資源，將大模型訓(xùn)練視頻預(yù)處理方案依托于自研的多媒體處理框架。王悅表示，該方案還在算法和工程方面進行了調(diào)優(yōu)，可以對海量視頻數(shù)據(jù)高質(zhì)量預(yù)處理，短時間內(nèi)實現(xiàn)處理鏈路的高效協(xié)同，提高模型訓(xùn)練效率。

對于該方案的應(yīng)用，李航在發(fā)布會現(xiàn)場透露，豆包視頻生成模型PixelDance在訓(xùn)練過程中已采用該方案。同時，火山引擎視頻云團隊提供的點播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務(wù)，讓模型的商業(yè)化應(yīng)用有了保障。

此外，在此次發(fā)布會上，火山引擎還發(fā)布了跨語言同聲復(fù)刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案，從視頻的生產(chǎn)端、交互端到消費端，全鏈路融入AI能力。

拿到AI視頻時代的“船票”之后，去向何方？

AI正全方位重塑著人們生產(chǎn)、傳播和接受信息的路徑。其中，不斷涌現(xiàn)的視頻新技術(shù)將人們從流暢、高清的數(shù)據(jù)世界帶入了更加智能、更具交互體驗的AI世界。

今年7月，商湯推出了首個面向C端用戶的可控人物視頻生成大模型Vimi；8月，“AI六小龍”之一的MiniMax發(fā)布了視頻生成模型video-1；9月，可靈AI完成第9次迭代，發(fā)布“可靈1.5模型”，阿里云在云棲大會上推出全新的視頻生成模型，字節(jié)也發(fā)布了2款視頻生成模型??AI視頻產(chǎn)品的誕生和迭代幾乎是以月來計時的。

對于AI視頻產(chǎn)品的“爆發(fā)”，北京市社會科學(xué)院副研究員王鵬在接受《每日經(jīng)濟新聞》記者采訪時表示，國內(nèi)AI視頻產(chǎn)品正處于快速發(fā)展和不斷迭代的階段，主要因為市場需求旺盛、應(yīng)用場景廣泛和商業(yè)化模式多樣等。

目前市場上AI視頻產(chǎn)品的落地大多在影視、電商營銷等領(lǐng)域，例如今年7月，即夢AI和博納影業(yè)合作推出了全國首部AIGC生成式連續(xù)性敘事科幻短劇集《三星堆：未來啟示錄》；今年9月，快手聯(lián)合賈樟柯、李少紅等9位知名導(dǎo)演啟動“可靈AI”導(dǎo)演共創(chuàng)計劃。

與此同時，工信部信息通信經(jīng)濟專家委員會委員盤和林向《每日經(jīng)濟新聞》記者指出，如今部分AI視頻產(chǎn)品處于導(dǎo)入期，因為技術(shù)或合規(guī)性，很難在市場上鋪開，“目前感覺開源（AI視頻產(chǎn)品）比閉源的更受歡迎，因為AI視頻生成的成本很高，而視頻制作者往往缺少資金，所以利用開源的、下載到終端的AI算法可以更好地制作生成視頻。”

在他看來，現(xiàn)階段AI視頻產(chǎn)品主要有算力和合規(guī)風(fēng)險兩方面的主要障礙。“算法、算力和數(shù)據(jù)方面都需要企業(yè)投入較多的資源和時間；另一難點在于合規(guī)風(fēng)險，如今對隱私越來越重視，合規(guī)是繞不過去的話題，而AI視頻有時可能會侵犯個人隱私。”他解釋。

此外，易觀分析研究合伙人陳晨也在接受《每日經(jīng)濟新聞》記者采訪時表達了對視頻生成大模型短期變現(xiàn)能力的擔(dān)憂，“由于AI大模型高昂的模型訓(xùn)練與推理成本，加之C端用戶對AI工具的需求相對分散，付費意愿不足，視頻大模型在C端市場的商業(yè)化仍然會面臨一個較長的培育期。”

AI視頻的時代來到了，但這注定是一個長坡厚雪的賽道，如何降本增效、拿下更多市場也將成為互聯(lián)網(wǎng)大廠和科技企業(yè)面對的不變命題。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

視頻模型 Ai

上一篇文章

金發(fā)科技監(jiān)事朱秀梅增持6400股，增持金額5.06萬元

返回每經(jīng)網(wǎng)首頁

下一篇文章

臺灣花蓮縣海域發(fā)生4.4級地震震源深度36千米

相關(guān)文章