要聞

高質(zhì)量數(shù)據(jù)“被榨干”，OpenAI員工爆料：新模型“沒有那么大飛躍”，公司正調(diào)整策略

每日經(jīng)濟(jì)新聞 2024-11-11 18:51:04

◎ 近日，OpenAI的下一代旗艦?zāi)Ｐ蚈rion可能不會(huì)像前面幾代產(chǎn)品那樣帶來(lái)巨大的飛躍。該模型雖優(yōu)于現(xiàn)有模型，但進(jìn)步幅度遠(yuǎn)不及GPT-3到GPT-4的飛躍，主要原因是高質(zhì)量數(shù)據(jù)供應(yīng)減少，OpenAI正通過(guò)合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)等方法應(yīng)對(duì)挑戰(zhàn)。

每經(jīng)記者｜蔡鼎每經(jīng)實(shí)習(xí)記者｜岳楚鵬每經(jīng)編輯｜蘭素英

每經(jīng)原創(chuàng)-K-科技、媒體、通信-ChatGPT、OpenAI（每日經(jīng)濟(jì)新聞、資料圖）.jpg

圖片來(lái)源：每日經(jīng)濟(jì)新聞資料圖

近日，據(jù)The Information報(bào)道，OpenAI的下一代旗艦?zāi)Ｐ涂赡懿粫?huì)像前面幾代產(chǎn)品那樣帶來(lái)巨大的飛躍。新的模型或許無(wú)法像之前的模型那樣耀眼。

據(jù)報(bào)道，測(cè)試代號(hào)為Orion的新模型的員工發(fā)現(xiàn)，盡管新模型性能超過(guò)了OpenAI現(xiàn)有的模型，但進(jìn)步程度并不如從GPT-3到GPT-4的進(jìn)步那么大。

換句話說(shuō)，OpenAI改進(jìn)的速度似乎正在放緩。根據(jù)一些內(nèi)部員工的說(shuō)法，在諸如編程這類的任務(wù)上Orion并不比之前的模型更可靠。OpenAI 員工和研究人員表示，GPT 研發(fā)速度放緩的原因之一是高質(zhì)量文本和其他數(shù)據(jù)的供應(yīng)量在不斷減少。

為了應(yīng)對(duì)這種情況，OpenAI成立了一個(gè)基礎(chǔ)團(tuán)隊(duì)，以研究如何在新訓(xùn)練數(shù)據(jù)不斷減少的情況下繼續(xù)改進(jìn)模型。據(jù)報(bào)道，這些新策略包括使用AI模型生成的合成數(shù)據(jù)對(duì)Orion進(jìn)行訓(xùn)練，以及在訓(xùn)練后的過(guò)程中對(duì)模型進(jìn)行更多改進(jìn)。

目前，OpenAI并未回應(yīng)相關(guān)消息的評(píng)論請(qǐng)求。不過(guò)上個(gè)月OpenAI曾表示，“我們今年沒有發(fā)布代號(hào)為Orion的模型的計(jì)劃。”

OpenAI下一代模型被曝質(zhì)量提升不大

使用ChatGPT的用戶數(shù)量正在飆升。不過(guò)，ChatGPT的底層模型的改進(jìn)速度似乎正在放緩。

OpenAI即將推出的旗艦?zāi)Ｐ蚈rion所面臨的挑戰(zhàn)顯示了OpenAI所面臨的困難。今年5月，OpenAI首席執(zhí)行官奧特曼告訴員工，他預(yù)計(jì)正在訓(xùn)練的Orion可能會(huì)比一年前發(fā)布的上一款模型好得多。

據(jù)The Information近日援引知情人士透露，奧特曼表示，盡管OpenAI只完成了Orion訓(xùn)練過(guò)程的20%，但就智能程度以及完成任務(wù)和回答問(wèn)題的能力而言，它已經(jīng)與GPT-4相當(dāng)。

然而，據(jù)一些使用或測(cè)試過(guò)Orion的OpenAI員工表示，雖然Orion的性能超過(guò)了之前的模型，但與OpenAI發(fā)布的最后兩款模型GPT-3和GPT-4之間的飛躍相比，質(zhì)量的提升要小得多。

OpenAI的一些研究人員認(rèn)為，在處理某些任務(wù)方面，Orion并不比之前的模型更可靠。據(jù)The Information援引OpenAI的一名員工稱，Orion在語(yǔ)言任務(wù)上表現(xiàn)更好，但在編碼等任務(wù)上可能不會(huì)勝過(guò)之前的模型。其中一位員工表示，與OpenAI最近發(fā)布的其他模型相比，Orion在數(shù)據(jù)中心運(yùn)行的成本可能更高。

OpenAI研究員Noam Brown上個(gè)月在TED AI會(huì)議上表示，開發(fā)更先進(jìn)的模型在財(cái)務(wù)上可能不可行。

“畢竟，我們真的要訓(xùn)練耗資數(shù)千億美元或數(shù)萬(wàn)億美元的模型嗎？”Brown說(shuō)。“在某個(gè)時(shí)候，擴(kuò)展范式（Scaling paradigm）就會(huì)崩潰。”

高質(zhì)量數(shù)據(jù)不足導(dǎo)致性能減速

Scaling laws是AI領(lǐng)域的一個(gè)核心假設(shè)：只要有更多的數(shù)據(jù)可供學(xué)習(xí)，以及額外的計(jì)算能力來(lái)促進(jìn)訓(xùn)練過(guò)程，大語(yǔ)言模型（LLM）就會(huì)繼續(xù)以相同的速度改進(jìn)。

扎克伯格、奧特曼等人工智能開發(fā)商的首席執(zhí)行官也公開表示，他們尚未觸及傳統(tǒng)Scaling law的極限。

這就是為什么包括OpenAI在內(nèi)的公司仍花費(fèi)數(shù)十億美元來(lái)建造昂貴的數(shù)據(jù)中心，以盡可能地從預(yù)訓(xùn)練模型中獲取性能提升。

雖然理論上目前的模型并沒有觸及Scaling law的極限，但是可供使用的數(shù)據(jù)來(lái)源卻快要干涸了。

OpenAI的員工和研究人員表示，GPT模型減速的一個(gè)原因是高質(zhì)量文本和其他數(shù)據(jù)的供應(yīng)不足。大語(yǔ)言模型需要在預(yù)訓(xùn)練期間處理這些數(shù)據(jù)，以理解世界和不同概念之間的關(guān)系，從而解決撰寫文章或解決編程錯(cuò)誤等問(wèn)題。

據(jù)The Information援引知情人士表示，過(guò)去幾年里，大語(yǔ)言模型在預(yù)訓(xùn)練過(guò)程中使用了來(lái)自網(wǎng)站、書籍和其他來(lái)源的公開文本和其他數(shù)據(jù)，但模型開發(fā)人員基本上已經(jīng)把這類數(shù)據(jù)資源榨干了。

視覺中國(guó)（不可商用）-情緒、抽象、其他-加班、監(jiān)視、安防系統(tǒng)、網(wǎng)絡(luò)安全、網(wǎng)上沖浪、網(wǎng)絡(luò)犯罪、黑客、電腦犯罪、鍵盤、計(jì)算機(jī)、筆記本電腦-VCG41N1309760279.jpg

圖片來(lái)源：視覺中國(guó)-VCG41N1309760279

OpenAI的應(yīng)對(duì)之策：合成數(shù)據(jù)、強(qiáng)化學(xué)習(xí)

為了應(yīng)對(duì)這種情況，OpenAI成立了一個(gè)基礎(chǔ)團(tuán)隊(duì)，以研究如何在新訓(xùn)練數(shù)據(jù)不斷減少的情況下繼續(xù)改進(jìn)模型。該團(tuán)隊(duì)由之前負(fù)責(zé)預(yù)訓(xùn)練的Nick Ryder領(lǐng)導(dǎo)。OpenAI表示，這個(gè)團(tuán)隊(duì)將研究如何應(yīng)對(duì)訓(xùn)練數(shù)據(jù)的匱乏，以及Scaling law還能適用多長(zhǎng)時(shí)間。

據(jù)OpenAI的一名員工稱，Orion的訓(xùn)練數(shù)據(jù)里有一部分是AI生成的合成數(shù)據(jù)。這些數(shù)據(jù)由GPT-4和最近發(fā)布的推理模型o1生成。然而，該員工表示，這種合成數(shù)據(jù)導(dǎo)致了一個(gè)新問(wèn)題，即Orion最終可能會(huì)在某些方面與那些舊模型相似。

軟件公司Databricks的聯(lián)合創(chuàng)始人兼董事長(zhǎng)Ion Stoica表示，這種合成數(shù)據(jù)可能并不能幫助AI進(jìn)步。

Stoica說(shuō)道：“對(duì)于常識(shí)性問(wèn)題，你可以說(shuō)現(xiàn)在我們看到的是大型語(yǔ)言模型性能都處于一個(gè)停滯狀態(tài)。我們需要更多的事實(shí)數(shù)據(jù)，合成數(shù)據(jù)幫助不大。”

除此之外，OpenAI的研究者們?cè)谀Ｐ陀?xùn)練后階段進(jìn)行了額外的改進(jìn)。比如，OpenAI采用了強(qiáng)化學(xué)習(xí)方法，通過(guò)讓模型從大量有正解的任務(wù)中學(xué)習(xí)（比如數(shù)學(xué)或編程問(wèn)題），以此來(lái)改進(jìn)它們處理特定任務(wù)的方式。

同時(shí)，OpenAI還會(huì)請(qǐng)人工評(píng)估員對(duì)預(yù)訓(xùn)練的模型在特定的編程或問(wèn)題解決任務(wù)上進(jìn)行測(cè)試，并對(duì)答案進(jìn)行評(píng)分。這有助于研究者調(diào)整模型，以更好地應(yīng)對(duì)諸如寫作或編程等特定類型的請(qǐng)求。這一方法，即帶人類反饋的強(qiáng)化學(xué)習(xí)，也有助于改進(jìn)之前的AI模型。

o1就是OpenAI使用這種改進(jìn)手段得到的成果，o1模型在給出答案前，會(huì)花更多時(shí)間來(lái)“思考”大語(yǔ)言模型在訓(xùn)練過(guò)程中處理的數(shù)據(jù)。這意味著，即使不對(duì)底層模型進(jìn)行修改，只要在回答用戶問(wèn)題時(shí)提供額外的計(jì)算資源，o1模型的回應(yīng)質(zhì)量就能持續(xù)提升。據(jù)知情人士透露，如果OpenAI能夠持續(xù)改進(jìn)底層模型的質(zhì)量，哪怕速度較慢，也能顯著提升推理效果。

“這為我們提供了一個(gè)全新的擴(kuò)展維度，”Brown在TED AI大會(huì)上表示。研究人員可以通過(guò)將每次查詢的成本從一分錢提升到十分錢來(lái)提高模型的響應(yīng)質(zhì)量。“

奧特曼同樣強(qiáng)調(diào)了OpenAI推理模型的重要性，這些模型可以與LLMs結(jié)合。

奧特曼在10月份一個(gè)面向應(yīng)用開發(fā)者的活動(dòng)中表示：“我希望推理功能能解鎖我們多年來(lái)期待實(shí)現(xiàn)的許多功能——例如，讓這類模型有能力貢獻(xiàn)新的科學(xué)知識(shí)，幫助編寫更復(fù)雜的代碼。”

但兩位知情員工表示，o1模型目前的價(jià)格比非推理模型高出六倍，因此它沒有廣泛的客戶群。

與此同時(shí)，o1模型的安全性也被很多人詬病，《自然》雜志就曾表示，在評(píng)估過(guò)程中，他們發(fā)現(xiàn)o1有時(shí)會(huì)遺漏關(guān)鍵安全信息，例如未強(qiáng)調(diào)爆炸危險(xiǎn)或建議不適當(dāng)?shù)幕瘜W(xué)品控制方法。

值得一提的是，OpenAI安全系統(tǒng)團(tuán)隊(duì)負(fù)責(zé)人翁荔（Lilian Weng）近日也宣布將離開已經(jīng)工作了近7年的OpenAI。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Ai 數(shù)據(jù) OpenAI 大模型

上一篇文章

千味央廚：公司副總經(jīng)理、董事會(huì)秘書徐振江辭職

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

特斯拉在美股盤前一度上漲8%，勢(shì)創(chuàng)2022年4月以來(lái)新高

相關(guān)文章