久久久老熟女一区二区三区,久久精品色妇熟妇丰满人妻5o,久久精品国产亚洲av麻豆甜,精品一区二区三区免费视频,久久精品国产首页027007

首頁> 資訊 > > 正文

對(duì)話斯坦福爆紅論文作者:GPT-4「變笨了」?可能并非如此

2023-08-19 15:46:44來源:36氪

文|林煒鑫

編輯|蘇建勛

兩個(gè)月前,一篇熱門帖子把火遍全球的 ChatGPT 推上 " 人工智障 " 的風(fēng)口浪尖。


【資料圖】

帖子出現(xiàn)在科技新聞社區(qū) Hacker News,發(fā)帖者提到,和之前相比,GPT-4 似乎變笨了:

" 它的編碼能力已經(jīng)大大降低了。以前,每當(dāng)我問一個(gè)問題。ChatGPT 有時(shí)會(huì)給我一個(gè)不正確的答案,但它能夠在后續(xù)問題后修復(fù)?,F(xiàn)在,每當(dāng)答案不正確的時(shí)候,不管我試了多少次,總是會(huì)返回一個(gè)錯(cuò)誤的答案。它變得如此令人沮喪。"

許多網(wǎng)友借此吐槽 GPT-4 的糟糕表現(xiàn),間接導(dǎo)致 ChatGPT 的使用量逐漸下滑。興許是為了平息爭議,OpenAI 一度矢口否認(rèn),表示 GPT-4 模型自發(fā)布以來,并未有任何變化。" 我們沒有把 GPT-4 變笨,相反我們每個(gè)新版本,都讓它比以前更聰明了。"

直到 7 月 19 日,一篇新論文將這個(gè)話題推向高潮。來自斯坦福大學(xué)和加州大學(xué)伯克利分校的三位學(xué)者研究發(fā)現(xiàn),相比 3 月份的 GPT-4,6 月份的 GPT-4 的性能表現(xiàn)變差了。

之前還只能嘀咕幾句的網(wǎng)友,爭相傳閱這篇論文,光是一條介紹論文的推特,就有幾千個(gè)點(diǎn)贊與轉(zhuǎn)發(fā)。苦 ChatGPT 久矣的網(wǎng)友,似乎找到了打臉 OpenAI 的 " 武器 "。

論文在推特上引起廣泛的討論

論文的第一作者是斯坦福大學(xué)計(jì)算系博士陳凌蛟。攻讀博士前,他曾在谷歌、微軟研究院等地工作,2018 年獲得谷歌博士生獎(jiǎng)研金。近一年來,陳凌蛟的研究方向主要集中在大模型服務(wù)和數(shù)據(jù)服務(wù)。

本周,36 氪與陳凌蛟圍繞這篇論文進(jìn)行了對(duì)話。陳凌蛟表示,四月底他觀察到網(wǎng)上很多用戶對(duì) GPT 的抱怨,便想做一些定量分析," 看看到底怎么回事 "。研究結(jié)果則令他們大感意外,GPT 模型確實(shí)不像預(yù)計(jì)的那樣越變越好,相反在行為上出現(xiàn)較大的波動(dòng)。

這些行為變化背后的根本原因是什么?網(wǎng)上涌現(xiàn)了很多猜測。有一部分人認(rèn)為,OpenAI 可能為了控制成本,有意使新模型性能下降。

一個(gè)證據(jù)便是,原先 3 小時(shí)能給 ChatGPT 發(fā)送 100 條信息,現(xiàn)在只能發(fā)送 25 條。還有一部分人懷疑,開發(fā)者往模型添加了一些安全機(jī)制,使 GPT 的回答更符合人類價(jià)值觀,但導(dǎo)致 GPT 自身的推理能力變差。

陳凌蛟告訴 36 氪,以上都是合理推測,但是模型目前 " 完全不透明 ",他沒辦法得出確定性的結(jié)論,這項(xiàng)研究只能是讓用戶清楚模型性能并不總是越來越好。

有趣的是,OpenAI 的態(tài)度不再強(qiáng)硬,表示會(huì)就這個(gè)現(xiàn)象進(jìn)一步調(diào)查。而論文剛在 arXiv 網(wǎng)站掛出不久,OpenAI 便做出一個(gè)新舉措:原先準(zhǔn)備下架的 3 月份 GPT-4 模型,將會(huì)延遲到明年夏天。"(我們的論文)至少給大家爭取到一年的使用時(shí)間。" 陳凌蛟說。

陳凌蛟透露,針對(duì)模型性能的監(jiān)測是一項(xiàng)長期工作,他們計(jì)劃將做更精細(xì)的行為變化分析。就在 8 月初,他們對(duì)這篇論文進(jìn)行了更新,在新文章里,回應(yīng)了學(xué)術(shù)界對(duì)研究的一些質(zhì)疑。

以下是 36 氪與陳凌蛟的對(duì)話,經(jīng) 36 氪編輯與整理:

GPT 性能出現(xiàn)巨大的波動(dòng)

36 氪:做這個(gè)研究的契機(jī)是什么?

陳凌蛟:我們很早就觀察到非常多用戶抱怨說,他們使用的 ChatGPT 或者 GPT-4 的性能下降。

例如,一些用戶接入 ChatGPT 或 GPT-4 來搭建或改進(jìn)他們的推薦系統(tǒng)。他們最開始接入模型時(shí)效果非常好,但一段時(shí)間后,卻發(fā)現(xiàn)了顯著的效果下降。人們想要了解究竟發(fā)生了什么。

模型的這種時(shí)移特性,是許多大語言模型用戶遇到的很大痛點(diǎn)。因此,我們希望在這個(gè)痛點(diǎn)上做一些定量分析,看看到底怎么回事。

36 氪:你們是想實(shí)錘一下 GPT 到底有沒有變笨了?

陳凌蛟:我們并沒有預(yù)設(shè)立場,實(shí)驗(yàn)的結(jié)果也并不支持這一結(jié)論。實(shí)際上,我們想了解和分析的,是它的行為如何發(fā)生變化。

這個(gè)變化對(duì)用戶來說是正面還是負(fù)面,要取決于具體應(yīng)用場景和訴求。但變化會(huì)給你的實(shí)際應(yīng)用帶來一些額外工作,至少你要去檢測,并做出應(yīng)對(duì)。

36 氪:你們?nèi)×?3 月和 6 月這兩個(gè)時(shí)間節(jié)點(diǎn),是精心設(shè)計(jì)的嗎?更長或更短的時(shí)間跨度,會(huì)對(duì)研究造成不同的影響嗎?

陳凌蛟:這是個(gè)非常好的問題。實(shí)際上我們希望并正在做更為精細(xì)的遷移研究,不止三個(gè)月,可能是一個(gè)月,甚至是兩禮拜。之所以最后是三個(gè)月周期,原因很簡單,因?yàn)檫@是 OpenAI 自己提供的兩個(gè)明確的時(shí)間節(jié)點(diǎn),他們提供的接口有 March Version(三月份版本)和 June Version(六月版本)。最后的(研究)結(jié)果對(duì)我們來說也很意外。三個(gè)月的時(shí)間就產(chǎn)生了很大差別。

36 氪:讓你們意外的是什么?

陳凌蛟:一個(gè)是它在一些數(shù)學(xué)問題上的行為變化很大。比如說做素?cái)?shù)或合數(shù)的判斷,很容易,對(duì)吧?它六月份變得弱很多。一種潛在的可能是新模型并沒有真的按照用戶提示來完成任務(wù),比如思維鏈的提示,對(duì)新模型的效果遠(yuǎn)不如老模型。

第二個(gè),我們也看到新模型對(duì)非常多的問題傾向于不去回答,或者是給出道歉式的回答," 對(duì)不起我解決不了這個(gè)問題 "。對(duì)敏感或存在攻擊性的問題,這種行為是合理的。但有些時(shí)候這種不回答令人并不十分滿意。

比方說,我們最近設(shè)計(jì)了份調(diào)查問卷,里面有很有趣的預(yù)測性問題,例如 " 你認(rèn)為將來的 20 年,美國在全世界的影響力是會(huì)變更大,還是會(huì)變更小 "。類似這樣的問題,新模型拒絕回答。這些問題并沒有標(biāo)準(zhǔn)答案。但很多時(shí)候人們希望大語言模型提供的,正是對(duì)未知的、沒有標(biāo)準(zhǔn)答案的問題提供參考。如果這些語言模型以前能回答,現(xiàn)在卻回答不了,這可能會(huì)讓大家很失望。

36 氪:新模型拒絕回答敏感問題,是因?yàn)殚_發(fā)者在模型里加入了安全機(jī)制嗎?

陳凌蛟:這是一種合理的推測。但我們無法確定原因,因?yàn)槟P褪情]源的。缺少技術(shù)細(xì)節(jié)的情況下,我們不能做確定性的回答。

36 氪:關(guān)于模型行為變化的根本原因,你的推測是什么?是跟模型本身、訓(xùn)練數(shù)據(jù),還是掩蓋機(jī)制等相關(guān)?

陳凌蛟:我們也很希望搞清楚這個(gè)問題的原因,但是目前沒有結(jié)論。你說的數(shù)據(jù)、模型結(jié)構(gòu),或者其他機(jī)制,都有可能。

這也是很多用戶面臨的實(shí)際問題:只掌握大語言模型的接口,但缺少內(nèi)部信息。我們希望(這個(gè)研究)給用戶提供一個(gè)參考。雖然不知道為什么變化,但至少知道發(fā)生了什么變化,從而在使用時(shí)心里有數(shù)。

36 氪:整個(gè)研究過程中有沒有比較麻煩或糾結(jié)的時(shí)候?

陳凌蛟:這個(gè)項(xiàng)目最大的難點(diǎn),或者說最有意思的部分,就是對(duì)問題的設(shè)計(jì)。你可以問它任何問題,它總能給你答案,那么你到底問哪些問題?這個(gè)設(shè)計(jì)是比較有趣,也有一定難度。另外,你怎么設(shè)計(jì)你的指標(biāo)?你問了很多問題,也得到答案,這些答案可能是千奇百怪的,那你怎么去做自動(dòng)化分析,然后設(shè)計(jì)出讓大家一下就明白了的這種指標(biāo)。

36 氪:具體應(yīng)該如何設(shè)計(jì)呢?

陳凌蛟:在設(shè)計(jì)過程中,很多時(shí)候你最初的設(shè)想,和你看到的結(jié)果完全不一致,應(yīng)該怎么調(diào)整。我舉個(gè)例子。還是剛才那個(gè) " 美國是更重要了還是不重要了 " 的問題。模型版本迭代了,我想看是不是同個(gè)問題的答案發(fā)生變化。那我就去測了,結(jié)果發(fā)現(xiàn)變化完全不是這么回事。

老模型會(huì)從四個(gè)選項(xiàng)挑一個(gè),新模型沒有選任何一個(gè)選項(xiàng),直接說我不能回答這個(gè)問題。后來我把拒絕回答也變成其中一個(gè)選項(xiàng)。但新模型還是拒絕做選擇,它就說,我沒有辦法回答帶有主觀性的問題。

這就得重新調(diào)整評(píng)估指標(biāo),才變成后來大家看到的回答頻率,就是多少問題真正回答,多少問題拒絕回答。

36 氪:你覺得這篇論文還有哪些不足?

陳凌蛟:其實(shí)有很多還沒做的事情。例如,我們的測試還是停留在相對(duì)比較簡單的問題上。模型在更復(fù)雜的應(yīng)用場景上的變化還有待分析。

論文讓 OpenAI 延遲下架舊模型

36 氪:這篇論文在網(wǎng)上很火,你收到了哪些評(píng)價(jià)和反饋?

陳凌蛟:有很多建設(shè)性的反饋和建議。比如來自加州大學(xué)伯克利分校的自然語言或文學(xué)方向的教授,他對(duì)我們這個(gè)事情很感興趣。這些大模型都是在語料很豐富的語言上訓(xùn)練,比如英語,那在很多語料不豐富的小語種上,這些模型呈現(xiàn)什么樣的行為變化呢?他們很關(guān)心,建議說是不是可以對(duì)小語種做一些探索和研究,我覺得是很有價(jià)值的。

36 氪:論文發(fā)表后,有兩位普林斯頓教授提出質(zhì)疑,覺得論文只是簡單顯示 GPT-4 行為的改變,不能等同于能力的下降。你怎么看待這個(gè)反對(duì)意見?

陳凌蛟:我們的文章在 8 月份有一個(gè)更新,其中對(duì)他們的質(zhì)疑其實(shí)做了更完整的回應(yīng)。我這邊可以簡單講兩句。首先我覺得他們做的分析很深入,非常好。他們質(zhì)疑的也不是我們的工作,而是 "GPT-4 變差了 " 這種簡單的結(jié)論。實(shí)際上我們論文里的結(jié)論一直強(qiáng)調(diào)是模型的行為發(fā)生了變化。更嚴(yán)格地說,他們的工作是對(duì)我們的一種補(bǔ)充。

我們最近做了額外的實(shí)驗(yàn),一部分驗(yàn)證了他們的判斷,但也得出新結(jié)論。他們認(rèn)為模型的先驗(yàn)知識(shí)發(fā)生了變化,比如說原先傾向于認(rèn)為一個(gè)數(shù)更可能是素?cái)?shù),但現(xiàn)在傾向于不是素?cái)?shù)。但是我們也看到這種傾向性的調(diào)整在老模型上是不明顯的。

36 氪:" 先驗(yàn)知識(shí) " 該怎么理解?

陳凌蛟:可以理解為模型在沒有外部信息時(shí)對(duì)特定問題的預(yù)設(shè)立場。拿人來類比,比如,在不看天氣預(yù)報(bào)時(shí),有人根據(jù)經(jīng)驗(yàn)認(rèn)為第二天大概率下雨,有人則認(rèn)為是晴天,這就是先驗(yàn)。

36 氪:你們又做了哪些實(shí)驗(yàn)?

陳凌蛟:他們(普林斯頓教授)之前說實(shí)驗(yàn)只做了素?cái)?shù),沒做合數(shù)。那我們把素?cái)?shù)跟合數(shù)放在一塊,老模型大概有 84、85 的精度,說明它并不是純粹的先驗(yàn)知識(shí),但新模型的精度很一般,只有 50% 左右,就跟瞎猜差不多了。

所以說,新老模型都有先驗(yàn),但是新模型受到先驗(yàn)影響很大。通俗地說,新模型更固執(zhí),不會(huì)變通。

36 氪:所以你們想把這個(gè)研究作為長期項(xiàng)目進(jìn)行下去?

陳凌蛟:對(duì),我們還在持續(xù)跟進(jìn)這個(gè)領(lǐng)域,而且我們會(huì)對(duì)后面更新的模型進(jìn)行性能分析和監(jiān)測。

36 氪:這項(xiàng)研究對(duì) GPT 的普通用戶有什么意義?

陳凌蛟:我覺得至少有幾個(gè)方面。第一個(gè)就是在使用過程當(dāng)中,可以意識(shí)到 GPT-4 性能會(huì)有很大的波動(dòng)。所以大家可能要有,我不能說警惕心,至少應(yīng)該是一些心理準(zhǔn)備。

第二個(gè)就是我們?yōu)槟切┓浅P⌒幕蚓璧挠脩粞娱L了使用老模型的時(shí)間。也就在我們文章剛掛出來沒多久,OpenAI 做了一個(gè)我認(rèn)為是非常好的一個(gè)決策。他們把三月份版本的使用時(shí)間延長了,原本就要下架,現(xiàn)在至少支持到明年的七八月份。

可能 OpenAI 為了留住那些更認(rèn)可舊模型的用戶,這是比較實(shí)在的(影響),至少給大家爭取到一年的使用時(shí)間。

36 氪:OpenAI 的人有沒有找到你們做交流?

陳凌蛟:暫時(shí)沒有面對(duì)面的溝通,但在網(wǎng)絡(luò)上他們有回應(yīng)。除了延長老模型的時(shí)間,他們一個(gè)相關(guān)負(fù)責(zé)人在推特上做了回應(yīng)。他說他們很感謝我們的工作,已經(jīng)注意到模型行為的變化,并會(huì)進(jìn)一步探究到底發(fā)生什么事情。

36 氪:很多媒體對(duì)這篇論文的解讀就是斯坦福大學(xué)證明了 GPT-4 變笨了,你看到這些報(bào)道,是什么樣的感受?

陳凌蛟:我能看到正面和負(fù)面的部分。從正面來說引起大家的重視,這些大模型并不是總是在各個(gè)方面都在變好的。

但反過來說,我更大的擔(dān)心是,這些并不非常準(zhǔn)確的解讀會(huì)不會(huì)帶給大家更多的困惑或誤導(dǎo)。比如有的人看了之后可能理解為 GPT-4 不能再用了。這不是我們的初衷。恰恰相反,我們支持大家開發(fā)與使用大模型,但建議大家能夠謹(jǐn)慎而負(fù)責(zé)地對(duì)待這些模型。

更多人涌進(jìn) AI 研究

36 氪:你自己主要的研究方向是什么?

陳凌蛟:主要是兩個(gè)比較大的方向。一個(gè)是提供大語言模型服務(wù),用戶如何使用這種服務(wù),如何優(yōu)化使用策略。不光是性能,包括反應(yīng)延遲,還有開銷,可能有的模型貴,有的模型便宜一點(diǎn),那么用戶如何做這種取舍。這其實(shí)是一個(gè)很大的研究方向。包括我們研究這種模型的行為變遷,也是使用決策當(dāng)中需要去考慮的部分。

還有就是研究數(shù)據(jù)服務(wù)。模型背后支撐的重要來源就是數(shù)據(jù)。我們?nèi)绾卧谶@個(gè)數(shù)據(jù)市場里幫助用戶取得比較好的性能,或者做比較明智的決策。應(yīng)該買哪些數(shù)據(jù),不應(yīng)該買哪些,應(yīng)該用哪些數(shù)據(jù)進(jìn)行整合。我個(gè)人專注在如何去理解、使用和優(yōu)化人工智能和數(shù)據(jù)的服務(wù)。

36 氪:斯坦福大學(xué)在人工智能研究有很強(qiáng)的實(shí)力,你置身其中有哪些感受?

陳凌蛟:第一是我們這兒,至少我看到的情況,大家非常樂于去擁抱很新的技術(shù),非常愿意學(xué)習(xí)新的知識(shí),非常敢于進(jìn)入到一個(gè)可能自己從前幾乎不了解的領(lǐng)域。包括非常資深的老教授,并沒有說為了我的名聲或者怎么樣,我不碰新東西。這個(gè)非常讓我震撼。

第二是斯坦福有非常好的產(chǎn)學(xué)結(jié)合的機(jī)會(huì)。它就在硅谷,有個(gè)笑話是你在斯坦福計(jì)算系跟教授聊天,每一個(gè)人都開了一家自己的公司。這里有很多的機(jī)會(huì),有很多投資人和公司。很多學(xué)術(shù)上的想法可以很快投入應(yīng)用和生產(chǎn)場景當(dāng)中去。

36 氪:人工智能研究現(xiàn)在非常熱門,你會(huì)感到一些競爭壓力嗎?

陳凌蛟:壓力是有啊。我看到非常多來自各個(gè)領(lǐng)域的優(yōu)秀學(xué)者,都涌進(jìn)了人工智能領(lǐng)域。和優(yōu)秀人才在一起,壓力不可能小啦。

36 氪:今年這波 AI 大浪潮,對(duì)產(chǎn)業(yè)界的沖擊很大,你覺得對(duì)學(xué)術(shù)界有什么影響?

陳凌蛟:現(xiàn)在很多人在做大模型(研究)。我不覺得這是個(gè)壞事情。因?yàn)榇竽P驮诤芏囝I(lǐng)域產(chǎn)生了革命性的變化。比如研究發(fā)現(xiàn) GPT-4 這樣級(jí)別的模型可以通過包括醫(yī)師資格考試、律師資格考試在內(nèi)的許多專業(yè)考試。這給人才培養(yǎng)與選拔提出了新問題:究竟什么樣的考核方式,才能適應(yīng)后大模型時(shí)代的人才選拔?從這個(gè)意義上,大模型至少幫助我們重新去審視人才培養(yǎng)乃至專業(yè)教育的問題。

歡迎交流

標(biāo)簽:

上一篇:車評(píng)頭條:2020款華晨寶馬3系日常實(shí)用性測試報(bào)告
下一篇:最后一頁