四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

“AI,你幫我挑個(gè)木瓜?”實(shí)測(cè)豆包視頻通話功能 一場(chǎng)AI“視覺(jué)交互”爭(zhēng)奪戰(zhàn)已打響

每日經(jīng)濟(jì)新聞 2025-05-28 07:47:33

近日,字節(jié)跳動(dòng)旗下AI智能助手“豆包”的App上線視頻通話功能,該功能用處不少。豆包團(tuán)隊(duì)近期就發(fā)文列舉了公園花草識(shí)別、博物館講解等四大應(yīng)用場(chǎng)景。一位大模型算法工程師表示,豆包在視頻通話中展現(xiàn)的視頻理解與語(yǔ)音交互能力,在中文語(yǔ)境中處于第一梯隊(duì)。

每經(jīng)記者|李宇彤  楊昕怡    每經(jīng)編輯|文多    

Rwvbqtpaun1748363736117.thumb_head

圖片來(lái)源:微信文章截圖

國(guó)內(nèi)AI(人工智能)視頻交互賽道再添重磅玩家。

近日,字節(jié)跳動(dòng)旗下AI智能助手“豆包”的App上線視頻通話功能,支持視頻聊天問(wèn)答。據(jù)官方介紹,本次升級(jí)基于視覺(jué)推理模型,支持聯(lián)網(wǎng)搜索。

《每日經(jīng)濟(jì)新聞》記者實(shí)測(cè)發(fā)現(xiàn),豆包的視頻通話功能用處不少,包括識(shí)別水果成熟度這樣的日常用途。此外,在識(shí)別物品時(shí),豆包更展現(xiàn)出持續(xù)記憶和邏輯推理能力。

5月27日,一位大模型算法工程師接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包在視頻通話中展現(xiàn)出的視頻理解與語(yǔ)音交互能力,在中文語(yǔ)境中處于第一梯隊(duì)。

繼文生視頻大模型后,字節(jié)在AI多模態(tài)領(lǐng)域又邁出關(guān)鍵一步。

能打視頻電話的豆包,效果如何?

“視覺(jué)是人類(lèi)了解這個(gè)世界最重要的方式,對(duì)于大模型來(lái)說(shuō)也是如此。”在去年12月舉行的“2024火山引擎FORCE原動(dòng)力大會(huì)·冬”上,火山引擎總裁譚待發(fā)布了豆包視覺(jué)理解模型,稱(chēng)該模型具備更出色的內(nèi)容識(shí)別、理解、推理、視覺(jué)描述和創(chuàng)作等能力。

5個(gè)月后,這一新模型的能力讓所有豆包用戶“眼見(jiàn)為實(shí)”了。

近日,豆包App上線了實(shí)時(shí)視頻通話功能,這一功能的實(shí)現(xiàn)正是基于豆包視覺(jué)理解模型的能力。

為了更直觀地展示這一新功能的應(yīng)用場(chǎng)景,豆包團(tuán)隊(duì)在其官方微信公眾號(hào)上列舉了公園內(nèi)花草識(shí)別、博物館內(nèi)實(shí)時(shí)講解、圖書(shū)館內(nèi)書(shū)籍推薦查閱以及買(mǎi)菜時(shí)的食材搭配這四大生活場(chǎng)景。在去年12月的發(fā)布會(huì)上,豆包團(tuán)隊(duì)就曾在演示視頻中呈現(xiàn)了該模型在識(shí)別地標(biāo)、讀懂代碼、分析體檢報(bào)告、為用戶提供穿搭意見(jiàn)等日常任務(wù)中的完成能力。

和豆包打個(gè)視頻電話,是否真的能解決上述這些生活問(wèn)題呢?百聞不如一見(jiàn),《每日經(jīng)濟(jì)新聞》記者近日以挑選水果、識(shí)別物品和推薦書(shū)籍這三項(xiàng)任務(wù),對(duì)豆包的實(shí)時(shí)視頻通話功能進(jìn)行了實(shí)測(cè)。

首先,是較為基礎(chǔ)的挑選水果任務(wù),這也是用戶在小紅書(shū)等社交媒體上分享得最多的應(yīng)用場(chǎng)景。“你來(lái)幫我挑選一個(gè)木瓜吧。”當(dāng)開(kāi)啟視頻通話后,豆包通過(guò)對(duì)果實(shí)表皮顏色、飽滿程度等指標(biāo)的觀察,快速給出了挑選建議。有小紅書(shū)用戶在使用豆包挑選蔬菜后表示:“感覺(jué)突然身邊多了個(gè)懂行的買(mǎi)菜老大爺。”

在識(shí)別物品和推薦書(shū)籍的環(huán)節(jié),豆包展現(xiàn)出了良好的記憶能力和連貫的實(shí)時(shí)搜索、互動(dòng)性能。例如,面對(duì)雜亂擺放著書(shū)籍、巧克力、耳機(jī)和電子時(shí)鐘等物品的書(shū)桌,豆包可以輕松識(shí)別所有物品的詳細(xì)信息并記憶它們?cè)谧郎系臄[放位置。

這一記憶功能在記者瀏覽書(shū)架時(shí)得到了更為充分的展現(xiàn)。記者在書(shū)店隨機(jī)挑選了一個(gè)書(shū)架,就書(shū)架一側(cè)第一本書(shū)和豆包進(jìn)行溝通,同時(shí)舉起手機(jī)走向了書(shū)架的另一頭,再突然提出“剛剛有一本蔡磊寫(xiě)的書(shū),你看到了嗎?”的問(wèn)題,豆包迅速記起這本曾在鏡頭前一閃而過(guò)的書(shū),并對(duì)該書(shū)進(jìn)行了簡(jiǎn)單介紹。

“(記憶功能的實(shí)現(xiàn))大概率是每隔幾秒給模型拍攝一張圖片。”一位大模型算法工程師在微信上接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示,豆包在該功能中展現(xiàn)的視頻理解和語(yǔ)音交互能力,在中文語(yǔ)境中處于第一梯隊(duì)。

與豆包進(jìn)行關(guān)于多本書(shū)籍的聊天時(shí),豆包能夠結(jié)合記憶能力與實(shí)時(shí)搜索,對(duì)書(shū)籍內(nèi)容、作者生平、同類(lèi)作品推薦等話題進(jìn)行自然延伸,整個(gè)交互過(guò)程流暢且生動(dòng)。

從“聽(tīng)見(jiàn)”到“看見(jiàn)”

在去年,AI的視頻交互功能就已經(jīng)在業(yè)界掀起波瀾。

2024年8月,“智譜清言”App率先推出了國(guó)內(nèi)首個(gè)面向C端(消費(fèi)者端)開(kāi)放的視頻通話功能。一時(shí)間,網(wǎng)上涌現(xiàn)出大量對(duì)視頻通話功能的測(cè)試。測(cè)試方式從最基礎(chǔ)的物體識(shí)別到生活場(chǎng)景的溝通交流,甚至包括輔導(dǎo)小學(xué)生作業(yè)。

趕在OpenAI和谷歌之前,智譜清言先一步將AI視頻交互在國(guó)內(nèi)落地。在國(guó)際市場(chǎng)上,從“聽(tīng)見(jiàn)”到“看見(jiàn)”同樣成為AI進(jìn)化的下一步。

2024年5月,OpenAI公司的“GPT-4o”發(fā)布?,F(xiàn)場(chǎng),OpenAI的研究員演示了GPT-4o的實(shí)時(shí)視覺(jué)功能——它通過(guò)手機(jī)攝像頭實(shí)時(shí)解了一個(gè)方程,甚至還能通過(guò)前置攝像頭觀察用戶的面部表情,分析用戶的情緒。同月,谷歌推出的“Project Astra”同樣具備實(shí)時(shí)語(yǔ)音、視頻交互的能力。

今年4月,火山引擎總裁譚待也曾表示:“模型要有能力做好思考、計(jì)劃和反思,并且一定要支持多模態(tài),就像人類(lèi)具備視覺(jué)和聽(tīng)覺(jué)一樣,Agent(智能體)才能更好地處理復(fù)雜任務(wù)。”

視頻通話功能的實(shí)現(xiàn),就建立在其多模態(tài)能力之上。從最后呈現(xiàn)的使用形態(tài)來(lái)看,視頻通話功能使得用戶無(wú)需再通過(guò)語(yǔ)言組織傳達(dá)眼前的信息,這無(wú)疑是對(duì)AI使用門(mén)檻的再一次降低。

技術(shù)能力的升級(jí)為AI打通了視覺(jué)和聽(tīng)覺(jué)的“任督二脈”,但也要看到,AI智能助手的快速擴(kuò)張已經(jīng)來(lái)到了瓶頸,新的交互范式可能是新階段的關(guān)鍵。

據(jù)量子位智庫(kù)數(shù)據(jù),4月份Web端(網(wǎng)頁(yè)端)AI智能助手的總訪問(wèn)量首次出現(xiàn)下降,說(shuō)明以嘗鮮驅(qū)動(dòng)的擴(kuò)張期或已結(jié)束。

隨著豆包在今年3月接入抖音及其“打電話”功能在社交媒體上受到關(guān)注,豆包也在通過(guò)抖音生態(tài)快速觸達(dá)用戶。

27日,知名經(jīng)濟(jì)學(xué)者、工信部信息通信經(jīng)濟(jì)專(zhuān)家委員會(huì)委員盤(pán)和林在接受《每日經(jīng)濟(jì)新聞》記者微信采訪時(shí)表示,豆包有著龐大的用戶應(yīng)用生態(tài)作為支撐,擴(kuò)散應(yīng)該比對(duì)手要快。

他認(rèn)為,豆包在商業(yè)拓展時(shí)主要還是和“剪映”集成,可以和抖音的內(nèi)容審核AI結(jié)合。比如可以通過(guò)AI發(fā)現(xiàn)違規(guī)的短視頻內(nèi)容。盤(pán)和林還表示,AI視頻交互的使用前景非常光明,比如生成虛擬人進(jìn)行直播,又比如通過(guò)AI識(shí)別來(lái)迅速對(duì)視頻文件進(jìn)行歸納總結(jié)。

另一方面,AI眼鏡這一類(lèi)符合視頻通話應(yīng)用場(chǎng)景的新硬件逐漸升溫,也給AI視頻交互帶來(lái)了更多可能性。

盤(pán)和林認(rèn)為:“AI視頻交互可以和AI眼鏡有限結(jié)合,但現(xiàn)階段AI眼鏡的算力和顯示等方面還存在技術(shù)缺陷。所以,期待未來(lái)有新的融合。”

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

視頻 豆包 Ai

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

2

0