8月8日,ChatGPT-5上線后,不少用戶發(fā)現(xiàn)OpenAI停用GPT-4o版本,引發(fā)巨大爭(zhēng)議。社交媒體出現(xiàn)不少關(guān)于GPT-5使用感不佳的吐槽,更有用戶直呼“還我GPT-4o”。
面對(duì)用戶爭(zhēng)議,OpenAI發(fā)文宣布,重新上線GPT-4o,供Plus和Team用戶使用,若需多平臺(tái)使用,用戶可在ChatGPT網(wǎng)頁(yè)版設(shè)置中啟用“顯示舊版模型”訪問(wèn)GPT-4o。與此同時(shí),下周還將推出迷你版GPT-5和GPT-5thinking。
OpenAI首席執(zhí)行官薩姆·奧爾特曼同樣在X平臺(tái)上連發(fā)兩條推文,回復(fù)下線GPT-4o與GPT-5上線帶來(lái)的爭(zhēng)議。
奧爾特曼坦言,低估了用戶對(duì)GPT-4o的喜愛(ài)程度,并表示這強(qiáng)化了公司為不同用戶提供定制化服務(wù)的理念,未來(lái)將推出比當(dāng)前更多的定制化內(nèi)容。同時(shí),其宣布將允許Plus用戶繼續(xù)使用GPT-4o,并將密切關(guān)注用戶使用情況,考慮舊版本模型的保留期限。
針對(duì)用戶對(duì)GPT-5的負(fù)面反饋,奧爾特曼解釋稱,這是由于自動(dòng)切換器損壞,致使GPT-5表現(xiàn)異常。他表示,未來(lái)將專注于完成GPT-5的部署與改進(jìn),并確保其穩(wěn)定性。
奧爾特曼同時(shí)透露,GPT-5上線后,ChatGPTAPI流量在24小時(shí)內(nèi)翻倍增長(zhǎng),OpenAI正在全力優(yōu)化系統(tǒng)并尋找更多的容量。但他坦言,預(yù)計(jì)下周仍將面臨嚴(yán)峻的容量挑戰(zhàn)。
用戶對(duì)GPT-5的“吐槽”,主要集中在新模型雖提升了回答的專業(yè)度,但卻缺少了情感交互的溫度、個(gè)性及想象力。
據(jù)每日經(jīng)濟(jì)新聞,在8月7日的發(fā)布會(huì)上,奧爾特曼曾用三個(gè)生動(dòng)的身份,類比了公司三代旗艦?zāi)P偷难葸M(jìn):GPT-3像是偶有靈光閃現(xiàn)但常伴挫敗感的高中生;GPT-4則如同具備了真實(shí)智慧與實(shí)用價(jià)值的大學(xué)生;而最新的GPT-5,則被譽(yù)為可以按需召喚的“博士級(jí)專家”,能夠隨時(shí)助力用戶達(dá)成各種復(fù)雜目標(biāo)。
OpenAI聲稱,GPT-5在超高難度的科學(xué)問(wèn)題上刷新了世界紀(jì)錄,并在與人類專家的對(duì)比測(cè)試中,有近70%的場(chǎng)景表現(xiàn)更優(yōu)。此外,GPT-5還與現(xiàn)有的o系列模型進(jìn)行了無(wú)縫整合,能夠根據(jù)任務(wù)的復(fù)雜性,自動(dòng)選擇最佳的推理路徑。官方數(shù)據(jù)顯示,GPT-5在代碼生成和寫作領(lǐng)域的準(zhǔn)確率均高于GPT-4系列,部分內(nèi)部測(cè)試中的錯(cuò)誤率甚至下降了約80%。
為了減少備受詬病的“幻覺(jué)”問(wèn)題,GPT-5還引入了更嚴(yán)格的事實(shí)核查與內(nèi)容過(guò)濾機(jī)制。具體來(lái)看,在聯(lián)網(wǎng)搜索時(shí),GPT-5的事實(shí)錯(cuò)誤概率比GPT-4o低約45%;獨(dú)立思考時(shí),出錯(cuò)概率比o3模型低約80%;在開放式事實(shí)性基準(zhǔn)測(cè)試中,產(chǎn)生“幻覺(jué)”的數(shù)量更是比o3模型少了約六分之五。
OpenAI在發(fā)布會(huì)上特別強(qiáng)調(diào)了GPT-5在代碼生成和寫作方面的能力。然而,用戶的實(shí)際使用體驗(yàn),似乎并未完全印證官方的說(shuō)法。
Meta公司的一位工程師體驗(yàn)GPT-5后在社交媒體上感嘆道:“GPT-5僅用一次調(diào)用就重構(gòu)了我的整個(gè)代碼庫(kù):25個(gè)工具調(diào)用,3000多行新代碼,12個(gè)全新的文件。”但他隨即話鋒一轉(zhuǎn):“然而,這些代碼都無(wú)效(無(wú)法正常工作),雖然確實(shí)寫得很漂亮。”
從第三方的基準(zhǔn)測(cè)試數(shù)據(jù)來(lái)看,GPT-5相較于競(jìng)爭(zhēng)對(duì)手的旗艦?zāi)P停漕I(lǐng)先優(yōu)勢(shì)也微乎其微。根據(jù)ArtificialAnalysis的綜合排名,GPT-5目前雖然位列第一,但其綜合得分僅比自家的老模型o3高出兩分,比Grok4僅高出一分。而在被譽(yù)為AGI終極測(cè)試的ArcPrize競(jìng)賽中,GPT-5更是被Grok4大幅超越。
“GPT-5不太可能‘超越一切預(yù)期’,因?yàn)榇竽P偷倪呺H收益正在迅速遞減。”AI營(yíng)銷與銷售專家、太和智庫(kù)研究員唐興通在接受每經(jīng)記者采訪時(shí)分析指出,“我們今天所看到的所謂‘進(jìn)步’,更多是來(lái)自于工程層面的調(diào)優(yōu)和多模態(tài)能力的融合,而非純粹的智能層面上的突破。”
他認(rèn)為,AI的發(fā)展正面臨兩大物理限制:“我們必須清醒地認(rèn)識(shí)到,‘數(shù)據(jù)墻’是客觀存在的,高質(zhì)量的公共訓(xùn)練數(shù)據(jù)正在被快速耗盡。同時(shí),算力成本的指數(shù)級(jí)增長(zhǎng),也讓過(guò)去那種‘大力出奇跡’的暴力美學(xué)難以為繼。”