頭條

每經(jīng)網(wǎng)首頁 > 頭條 > 正文

重磅！OpenAI首個(gè)視頻生成模型發(fā)布，1分鐘流暢高清，效果炸裂

每日經(jīng)濟(jì)新聞 2024-02-16 09:17:39

每經(jīng)編輯｜畢陸名

據(jù)OpenAI官網(wǎng)，OpenAI首個(gè)視頻生成模型Sora發(fā)布，完美繼承DALL·E 3的畫質(zhì)和遵循指令能力，能生成長(zhǎng)達(dá)1分鐘的高清視頻。

AI想象中的龍年春節(jié)，紅旗招展人山人海。

有緊跟舞龍隊(duì)伍抬頭好奇官網(wǎng)的兒童，還有不少人掏出手機(jī)邊跟邊拍，海量人物角色各有各的行為。

一位時(shí)髦女士漫步在東京街頭，周圍是溫暖閃爍的霓虹燈和動(dòng)感的城市標(biāo)志。

一名年約三十的宇航員戴著紅色針織摩托頭盔展開冒險(xiǎn)之旅，電影預(yù)告片呈現(xiàn)其穿梭于藍(lán)天白云與鹽湖沙漠之間的精彩瞬間，獨(dú)特的電影風(fēng)格、采用35毫米膠片拍攝，色彩鮮艷。

豎屏超近景視角下，這只蜥蜴細(xì)節(jié)拉滿：

OpenAI表示，公司正在教授人工智能理解和模擬運(yùn)動(dòng)中的物理世界，目標(biāo)是訓(xùn)練出能夠幫助人們解決需要與現(xiàn)實(shí)世界互動(dòng)的問題的模型。在此，隆重推出文本到視頻模型——Sora。Sora可以生成長(zhǎng)達(dá)一分鐘的視頻，同時(shí)保證視覺質(zhì)量和符合用戶提示的要求。

如今，Sora正面向部分成員開放，以評(píng)估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。同時(shí)，OpenAI也邀請(qǐng)了一批視覺藝術(shù)家、設(shè)計(jì)師和電影制作人加入，期望獲得寶貴反饋，以推動(dòng)模型進(jìn)步，更好地助力創(chuàng)意工作者。OpenAI提前分享研究進(jìn)展，旨在與OpenAI以外的人士合作并獲取反饋，讓公眾了解即將到來的AI技術(shù)新篇章。

Sora模型能夠生成包含多個(gè)角色、特定類型運(yùn)動(dòng)和主體及背景精確細(xì)節(jié)的復(fù)雜場(chǎng)景。該模型不僅能理解用戶在提示中所要求的內(nèi)容，還能理解這些事物在現(xiàn)實(shí)世界中的存在方式。該模型對(duì)語言有深刻理解，能準(zhǔn)確解讀提示，并生成表達(dá)豐富情感的引人入勝的角色。Sora還能在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，使角色和視覺風(fēng)格保持準(zhǔn)確一致。

比如一大群紙飛機(jī)在樹林中飛過，Sora知道碰撞后會(huì)發(fā)生什么，并表現(xiàn)其中的光影變化。

一群紙飛機(jī)在茂密的叢林中翩翩起舞，在樹林中穿梭，就像候鳥一樣。

Sora還可以在單個(gè)視頻中創(chuàng)建多個(gè)鏡頭，并依靠對(duì)語言的深入理解準(zhǔn)確地解釋提示詞，保留角色和視覺風(fēng)格。

對(duì)于Sora當(dāng)前存在的弱點(diǎn)，OpenAI也不避諱，模型在準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性方面可能會(huì)遇到困難，也可能無法理解具體的因果關(guān)系實(shí)例。例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，狼的數(shù)量會(huì)變化，一些憑空出現(xiàn)或消失。

此外，模型還可能會(huì)混淆提示的空間細(xì)節(jié)，例如左右不分，并且在處理隨時(shí)間發(fā)生的事件的精確描述方面也可能存在困難，比如跟蹤特定的攝像機(jī)軌跡。

如提示詞“籃球穿過籃筐然后爆炸”中，籃球沒有正確被籃筐阻擋。

技術(shù)方面，目前OpenAI透露的不多，簡(jiǎn)單介紹如下：

Sora是一種擴(kuò)散模型，從噪聲開始，能夠一次生成整個(gè)視頻或擴(kuò)展視頻的長(zhǎng)度，

關(guān)鍵之處在于一次生成多幀的預(yù)測(cè)，確保畫面主體即使暫時(shí)離開視野也能保持不變。

與GPT模型類似，Sora使用了Transformer架構(gòu)，有很強(qiáng)的擴(kuò)展性。

在數(shù)據(jù)方面，OpenAI將視頻和圖像表示為patch，類似于GPT中的token。

通過這種統(tǒng)一的數(shù)據(jù)表示方式，可以在比以前更廣泛的視覺數(shù)據(jù)上訓(xùn)練模型，涵蓋不同的持續(xù)時(shí)間、分辨率和縱橫比。

Sora建立在過去對(duì)DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示詞技術(shù)，為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)注，因此能夠更忠實(shí)地遵循用戶的文本指令。

除了能夠僅根據(jù)文本指令生成視頻之外，該模型還能夠獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻，準(zhǔn)確地讓圖像內(nèi)容動(dòng)起來并關(guān)注小細(xì)節(jié)。

該模型還可以獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀，請(qǐng)參閱技術(shù)論文了解更多信息（晚些時(shí)候發(fā)布）。

Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)，OpenAI相信這一功能將成為實(shí)現(xiàn)AGI的重要里程碑。

每日經(jīng)濟(jì)新聞綜合OpenAI官網(wǎng)

封面圖片來源：視頻截圖

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型 Ai 視頻

上一篇文章

波烏兩國正就農(nóng)產(chǎn)品進(jìn)口配額進(jìn)行談判

返回每經(jīng)網(wǎng)首頁

下一篇文章

?？谌刍謴?fù)通航待渡約4300輛疏運(yùn)需5小時(shí)以上

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

重磅！OpenAI首個(gè)視頻生成模型發(fā)布，1分鐘流暢高清，效果炸裂

重磅！OpenAI首個(gè)視頻生成模型發(fā)布，1分鐘流暢高清，效果炸裂