頭條

自研視頻生成模型姍姍來遲快手“可靈”、字節(jié)“即夢(mèng)”珠玉在前，百度勝算幾何？

2025-07-02 23:54:22

7月2日，百度發(fā)布自研視頻生成模型“MuseSteamer”及配套平臺(tái)“繪想”，正式進(jìn)軍AI視頻生成領(lǐng)域。百度強(qiáng)調(diào)MuseSteamer的極致遵循力和鏡頭運(yùn)用能力，旨在降低專業(yè)創(chuàng)作門檻。此前，李彥宏曾表示不做通用視頻生成模型，但特定場景下有需求。MuseSteamer或主要應(yīng)用于廣告創(chuàng)意生成與內(nèi)容投放。同日，百度搜索宣布十年來最大改版，接入MuseSteamer。

每經(jīng)記者｜可楊每經(jīng)編輯｜張益銘

7月2日，《每日經(jīng)濟(jì)新聞》記者獲悉，百度商業(yè)研發(fā)團(tuán)隊(duì)對(duì)外發(fā)布了自研視頻生成模型“MuseSteamer”及配套創(chuàng)作平臺(tái)“繪想”，正式進(jìn)軍AI（人工智能）視頻生成領(lǐng)域。

2024年，Sora爆火引發(fā)生成式視頻大模型熱潮，李彥宏則在一場內(nèi)部講話中稱，Sora這種視頻生成模型的投入周期太長，10年、20年都可能拿不到業(yè)務(wù)收益，無論多火爆，百度都不去做。

7月2日，一位接近百度的人士對(duì)《每日經(jīng)濟(jì)新聞》記者分析稱，Robin（李彥宏）點(diǎn)評(píng)Sora其實(shí)還有后半句，基于多模態(tài)需求，可以做一個(gè)相對(duì)特定的視頻生成場景?！鞍ò俣惹岸螘r(shí)間的羅永浩數(shù)字人其實(shí)也是特定場景的視頻生成。原本商業(yè)側(cè)已有擎舵這個(gè)平臺(tái)，那么去服務(wù)B端商業(yè)客戶生成AIGC（人工智能生成內(nèi)容）產(chǎn)品宣傳視頻，其實(shí)就是特定場景，也是有用戶需求的?！?/p>

關(guān)鍵優(yōu)勢在于極致遵循力

當(dāng)前，AI生成視頻在生成質(zhì)量、畫面穩(wěn)定性和長度等方面仍是各大技術(shù)廠商持續(xù)攻堅(jiān)的領(lǐng)域。

百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林表示，在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域，視頻時(shí)長與畫質(zhì)的突破往往意味著創(chuàng)作自由度的質(zhì)變。MuseSteamer可支持電影級(jí)審美下的10秒長視頻的生成，1080P的高清晰度，為視頻創(chuàng)作提供了更大的表現(xiàn)空間。

劉林表示，傳統(tǒng)AIGC視頻創(chuàng)作實(shí)踐中，往往是先生成視頻，再進(jìn)行配音和添加音效。割裂的創(chuàng)作環(huán)節(jié)不僅消耗大量時(shí)間，更會(huì)削弱作品的完整藝術(shù)表達(dá)。MuseSteamer創(chuàng)新性支持一體化生成帶有音效和人物臺(tái)詞的視頻。

此外，在視頻長度方面，MuseSteamer目前支持生成5秒和10秒兩個(gè)版本，并可達(dá)1080p清晰度。百度此次同步發(fā)布了MuseSteamer模型的家族版本，包括Turbo、Lite、Pro，以及各版本對(duì)應(yīng)的有聲版，分別面向不同的創(chuàng)作需求和成本考量。

劉林強(qiáng)調(diào)，MuseSteamer的關(guān)鍵優(yōu)勢在于其對(duì)創(chuàng)作指令的理解與執(zhí)行能力，即所謂的極致遵循力，能實(shí)現(xiàn)創(chuàng)作者“所思即所得”的表達(dá)自由。此外，鏡頭運(yùn)用能力也是其差異化競爭力之一，百度希望通過該模型降低專業(yè)創(chuàng)作門檻，讓更多人獲得“鏡頭平權(quán)”。

據(jù)介紹，MuseSteamer模型的技術(shù)基礎(chǔ)包括三大方面：首先，在數(shù)據(jù)準(zhǔn)備階段，通過“篩選—凈化—配比”的方式，對(duì)超過10億條異構(gòu)數(shù)據(jù)進(jìn)行處理，并結(jié)合三級(jí)標(biāo)簽體系和Active Learning（主動(dòng)學(xué)習(xí)）機(jī)制，以保證訓(xùn)練數(shù)據(jù)的審美和結(jié)構(gòu)質(zhì)量。

其次，在模型訓(xùn)練過程中，采用多目標(biāo)反饋的強(qiáng)化學(xué)習(xí)優(yōu)化路徑，試圖在保證視頻動(dòng)作幅度的同時(shí)，保持主體內(nèi)容的一致性穩(wěn)定輸出。同時(shí)，MuseSteamer引入美學(xué)條件控制調(diào)優(yōu)，通過隱式批判學(xué)習(xí)和影視標(biāo)準(zhǔn)嚴(yán)選，讓模型懂美、創(chuàng)造美。

MuseSteamer如何面對(duì)勁敵

相比OpenAI、字節(jié)跳動(dòng)、Pika等更早投入文生視頻賽道的企業(yè)，百度此次推出MuseSteamer確屬“后發(fā)”。無論是國外如Pika、Runway，還是國內(nèi)如快手旗下的可靈AI、字節(jié)跳動(dòng)旗下剪映團(tuán)隊(duì)孵化的AI創(chuàng)作平臺(tái)即夢(mèng)AI，均從2024年起就密集發(fā)布各類模型、功能和平臺(tái)，并已完成多次迭代。

今年5月，快手可靈AI宣布推出全新2.1系列模型，高品質(zhì)模式（1080p）下生成5秒視頻僅需不到1分鐘?？焓止倬W(wǎng)信息顯示，可靈AI在推出10個(gè)月之后（即今年3月）的年化收入運(yùn)行率（Annualized Revenue Run Rate）突破1億美金，其今年4月和5月的月度付費(fèi)金額均超過1億元人民幣。

百度是最早布局大模型的國內(nèi)科技企業(yè)之一。自2023年起，百度發(fā)布文心一言、迭代多個(gè)版本的文心大模型，同時(shí)已在搜索、地圖、文檔、企業(yè)服務(wù)等多個(gè)業(yè)務(wù)線中落地大模型能力。

但在視頻生成這一AIGC下一個(gè)爆發(fā)點(diǎn)上，百度此前并未公開大動(dòng)作，僅在2024年宣布領(lǐng)投清華系視頻大模型公司生數(shù)科技。此外，2025年3月，百度發(fā)布的文心大模型4.5和4.5 Turbo實(shí)現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。

2024年，Sora爆火引發(fā)國內(nèi)生成式視頻大模型熱潮，李彥宏則在一場內(nèi)部講話中稱，Sora這種視頻生成模型的投入周期太長，10年、20年都可能拿不到業(yè)務(wù)收益，無論多火爆，百度都不去做。

7月2日，一位接近百度的人士對(duì)《每日經(jīng)濟(jì)新聞》記者分析稱：“之前提到的不做類似Sora，更多是不去訓(xùn)一個(gè)general-purpose（通用）的視頻生成模型，但是在特定場景、特定目的下的視頻生成能力是需要的，或者說基于對(duì)市場需求的判斷，外界確實(shí)沒有這種能力，會(huì)自己來生產(chǎn)、研發(fā)這樣的能力?！?/p>

上述人士表示，Robin（指李彥宏）點(diǎn)評(píng)Sora其實(shí)還有后半句，基于多模態(tài)需求，可以做一個(gè)相對(duì)特定的視頻生成場景?！鞍ò俣惹岸螘r(shí)間的羅永浩數(shù)字人其實(shí)也是特定場景的視頻生成。原本商業(yè)側(cè)已有擎舵這個(gè)平臺(tái)，那么去服務(wù)B端商業(yè)客戶生成AIGC產(chǎn)品宣傳視頻，其實(shí)就是特定場景，也是有用戶需求的?！?/p>

記者注意到，MuseSteamer由百度商業(yè)研發(fā)團(tuán)隊(duì)主導(dǎo)推出，或許意味著其背后的直接應(yīng)用場景有可能是廣告創(chuàng)意生成與內(nèi)容投放。

此外，7月2日，百度搜索還宣布進(jìn)行十年來最大改版，從搜索框、搜索結(jié)果頁到搜索生態(tài)全面革新。具體而言，百度搜索框升級(jí)為“智能框”，支持超千字的文本輸入，拍照、語音、視頻等能力也全面加強(qiáng)，支持直接調(diào)取AI寫作、AI作圖等工具。百度搜索還宣布接入視頻生成模型MuseSteamer。

未來，MuseSteamer如何融入百度搜索、營銷與智能助手等核心業(yè)務(wù)，將決定它是否能從工具演化為平臺(tái)，從模型能力走向商業(yè)杠桿。

封面圖片來源：圖片來源：每日經(jīng)濟(jì)新聞資料圖

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。