要聞

“AI，你幫我挑個木瓜？”實測豆包視頻通話功能一場AI“視覺交互”爭奪戰(zhàn)已打響

每日經(jīng)濟新聞 2025-05-28 07:47:33

近日，字節(jié)跳動旗下AI智能助手“豆包”的App上線視頻通話功能，該功能用處不少。豆包團隊近期就發(fā)文列舉了公園花草識別、博物館講解等四大應(yīng)用場景。一位大模型算法工程師表示，豆包在視頻通話中展現(xiàn)的視頻理解與語音交互能力，在中文語境中處于第一梯隊。

每經(jīng)記者｜李宇彤楊昕怡每經(jīng)編輯｜文多

圖片來源：微信文章截圖

國內(nèi)AI（人工智能）視頻交互賽道再添重磅玩家。

近日，字節(jié)跳動旗下AI智能助手“豆包”的App上線視頻通話功能，支持視頻聊天問答。據(jù)官方介紹，本次升級基于視覺推理模型，支持聯(lián)網(wǎng)搜索。

《每日經(jīng)濟新聞》記者實測發(fā)現(xiàn)，豆包的視頻通話功能用處不少，包括識別水果成熟度這樣的日常用途。此外，在識別物品時，豆包更展現(xiàn)出持續(xù)記憶和邏輯推理能力。

5月27日，一位大模型算法工程師接受《每日經(jīng)濟新聞》記者微信采訪時表示，豆包在視頻通話中展現(xiàn)出的視頻理解與語音交互能力，在中文語境中處于第一梯隊。

繼文生視頻大模型后，字節(jié)在AI多模態(tài)領(lǐng)域又邁出關(guān)鍵一步。

能打視頻電話的豆包，效果如何？

“視覺是人類了解這個世界最重要的方式，對于大模型來說也是如此。”在去年12月舉行的“2024火山引擎FORCE原動力大會·冬”上，火山引擎總裁譚待發(fā)布了豆包視覺理解模型，稱該模型具備更出色的內(nèi)容識別、理解、推理、視覺描述和創(chuàng)作等能力。

5個月后，這一新模型的能力讓所有豆包用戶“眼見為實”了。

近日，豆包App上線了實時視頻通話功能，這一功能的實現(xiàn)正是基于豆包視覺理解模型的能力。

為了更直觀地展示這一新功能的應(yīng)用場景，豆包團隊在其官方微信公眾號上列舉了公園內(nèi)花草識別、博物館內(nèi)實時講解、圖書館內(nèi)書籍推薦查閱以及買菜時的食材搭配這四大生活場景。在去年12月的發(fā)布會上，豆包團隊就曾在演示視頻中呈現(xiàn)了該模型在識別地標(biāo)、讀懂代碼、分析體檢報告、為用戶提供穿搭意見等日常任務(wù)中的完成能力。

和豆包打個視頻電話，是否真的能解決上述這些生活問題呢？百聞不如一見，《每日經(jīng)濟新聞》記者近日以挑選水果、識別物品和推薦書籍這三項任務(wù)，對豆包的實時視頻通話功能進行了實測。

首先，是較為基礎(chǔ)的挑選水果任務(wù)，這也是用戶在小紅書等社交媒體上分享得最多的應(yīng)用場景。“你來幫我挑選一個木瓜吧。”當(dāng)開啟視頻通話后，豆包通過對果實表皮顏色、飽滿程度等指標(biāo)的觀察，快速給出了挑選建議。有小紅書用戶在使用豆包挑選蔬菜后表示：“感覺突然身邊多了個懂行的買菜老大爺。”

在識別物品和推薦書籍的環(huán)節(jié)，豆包展現(xiàn)出了良好的記憶能力和連貫的實時搜索、互動性能。例如，面對雜亂擺放著書籍、巧克力、耳機和電子時鐘等物品的書桌，豆包可以輕松識別所有物品的詳細(xì)信息并記憶它們在桌上的擺放位置。

這一記憶功能在記者瀏覽書架時得到了更為充分的展現(xiàn)。記者在書店隨機挑選了一個書架，就書架一側(cè)第一本書和豆包進行溝通，同時舉起手機走向了書架的另一頭，再突然提出“剛剛有一本蔡磊寫的書，你看到了嗎？”的問題，豆包迅速記起這本曾在鏡頭前一閃而過的書，并對該書進行了簡單介紹。

“（記憶功能的實現(xiàn)）大概率是每隔幾秒給模型拍攝一張圖片。”一位大模型算法工程師在微信上接受《每日經(jīng)濟新聞》記者采訪時表示，豆包在該功能中展現(xiàn)的視頻理解和語音交互能力，在中文語境中處于第一梯隊。

與豆包進行關(guān)于多本書籍的聊天時，豆包能夠結(jié)合記憶能力與實時搜索，對書籍內(nèi)容、作者生平、同類作品推薦等話題進行自然延伸，整個交互過程流暢且生動。

從“聽見”到“看見”

在去年，AI的視頻交互功能就已經(jīng)在業(yè)界掀起波瀾。

2024年8月，“智譜清言”App率先推出了國內(nèi)首個面向C端（消費者端）開放的視頻通話功能。一時間，網(wǎng)上涌現(xiàn)出大量對視頻通話功能的測試。測試方式從最基礎(chǔ)的物體識別到生活場景的溝通交流，甚至包括輔導(dǎo)小學(xué)生作業(yè)。

趕在OpenAI和谷歌之前，智譜清言先一步將AI視頻交互在國內(nèi)落地。在國際市場上，從“聽見”到“看見”同樣成為AI進化的下一步。

2024年5月，OpenAI公司的“GPT-4o”發(fā)布。現(xiàn)場，OpenAI的研究員演示了GPT-4o的實時視覺功能——它通過手機攝像頭實時解了一個方程，甚至還能通過前置攝像頭觀察用戶的面部表情，分析用戶的情緒。同月，谷歌推出的“Project Astra”同樣具備實時語音、視頻交互的能力。

今年4月，火山引擎總裁譚待也曾表示：“模型要有能力做好思考、計劃和反思，并且一定要支持多模態(tài)，就像人類具備視覺和聽覺一樣，Agent（智能體）才能更好地處理復(fù)雜任務(wù)。”

視頻通話功能的實現(xiàn)，就建立在其多模態(tài)能力之上。從最后呈現(xiàn)的使用形態(tài)來看，視頻通話功能使得用戶無需再通過語言組織傳達眼前的信息，這無疑是對AI使用門檻的再一次降低。

技術(shù)能力的升級為AI打通了視覺和聽覺的“任督二脈”，但也要看到，AI智能助手的快速擴張已經(jīng)來到了瓶頸，新的交互范式可能是新階段的關(guān)鍵。

據(jù)量子位智庫數(shù)據(jù)，4月份Web端（網(wǎng)頁端）AI智能助手的總訪問量首次出現(xiàn)下降，說明以嘗鮮驅(qū)動的擴張期或已結(jié)束。

隨著豆包在今年3月接入抖音及其“打電話”功能在社交媒體上受到關(guān)注，豆包也在通過抖音生態(tài)快速觸達用戶。

27日，知名經(jīng)濟學(xué)者、工信部信息通信經(jīng)濟專家委員會委員盤和林在接受《每日經(jīng)濟新聞》記者微信采訪時表示，豆包有著龐大的用戶應(yīng)用生態(tài)作為支撐，擴散應(yīng)該比對手要快。

他認(rèn)為，豆包在商業(yè)拓展時主要還是和“剪映”集成，可以和抖音的內(nèi)容審核AI結(jié)合。比如可以通過AI發(fā)現(xiàn)違規(guī)的短視頻內(nèi)容。盤和林還表示，AI視頻交互的使用前景非常光明，比如生成虛擬人進行直播，又比如通過AI識別來迅速對視頻文件進行歸納總結(jié)。

另一方面，AI眼鏡這一類符合視頻通話應(yīng)用場景的新硬件逐漸升溫，也給AI視頻交互帶來了更多可能性。

盤和林認(rèn)為：“AI視頻交互可以和AI眼鏡有限結(jié)合，但現(xiàn)階段AI眼鏡的算力和顯示等方面還存在技術(shù)缺陷。所以，期待未來有新的融合。”

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

視頻豆包 Ai

上一篇文章

蘋果欲打造自己的游戲平臺；Claude語音模式已處于測試階段丨全球科技早參

返回每經(jīng)網(wǎng)首頁

下一篇文章

A股分紅派息轉(zhuǎn)增一覽：149股今日股權(quán)登記

相關(guān)文章