精品国产一区二区三区av性色,久久久亚洲欧洲日产国码农村

首頁> 資訊 > > 正文

對(duì)話斯坦福爆紅論文作者：GPT-4「變笨了」？可能并非如此

2023-08-19 15:46:44來源:36氪

文｜林煒鑫

編輯｜蘇建勛

兩個(gè)月前，一篇熱門帖子把火遍全球的 ChatGPT 推上 " 人工智障 " 的風(fēng)口浪尖。

【資料圖】

帖子出現(xiàn)在科技新聞社區(qū) Hacker News，發(fā)帖者提到，和之前相比，GPT-4 似乎變笨了：

" 它的編碼能力已經(jīng)大大降低了。以前，每當(dāng)我問一個(gè)問題。ChatGPT 有時(shí)會(huì)給我一個(gè)不正確的答案，但它能夠在后續(xù)問題后修復(fù)?，F(xiàn)在，每當(dāng)答案不正確的時(shí)候，不管我試了多少次，總是會(huì)返回一個(gè)錯(cuò)誤的答案。它變得如此令人沮喪。"

許多網(wǎng)友借此吐槽 GPT-4 的糟糕表現(xiàn)，間接導(dǎo)致 ChatGPT 的使用量逐漸下滑。興許是為了平息爭議，OpenAI 一度矢口否認(rèn)，表示 GPT-4 模型自發(fā)布以來，并未有任何變化。" 我們沒有把 GPT-4 變笨，相反我們每個(gè)新版本，都讓它比以前更聰明了。"

直到 7 月 19 日，一篇新論文將這個(gè)話題推向高潮。來自斯坦福大學(xué)和加州大學(xué)伯克利分校的三位學(xué)者研究發(fā)現(xiàn)，相比 3 月份的 GPT-4，6 月份的 GPT-4 的性能表現(xiàn)變差了。

之前還只能嘀咕幾句的網(wǎng)友，爭相傳閱這篇論文，光是一條介紹論文的推特，就有幾千個(gè)點(diǎn)贊與轉(zhuǎn)發(fā)。苦 ChatGPT 久矣的網(wǎng)友，似乎找到了打臉 OpenAI 的 " 武器 "。

論文在推特上引起廣泛的討論

論文的第一作者是斯坦福大學(xué)計(jì)算系博士陳凌蛟。攻讀博士前，他曾在谷歌、微軟研究院等地工作，2018 年獲得谷歌博士生獎(jiǎng)研金。近一年來，陳凌蛟的研究方向主要集中在大模型服務(wù)和數(shù)據(jù)服務(wù)。

本周，36 氪與陳凌蛟圍繞這篇論文進(jìn)行了對(duì)話。陳凌蛟表示，四月底他觀察到網(wǎng)上很多用戶對(duì) GPT 的抱怨，便想做一些定量分析，" 看看到底怎么回事 "。研究結(jié)果則令他們大感意外，GPT 模型確實(shí)不像預(yù)計(jì)的那樣越變越好，相反在行為上出現(xiàn)較大的波動(dòng)。

這些行為變化背后的根本原因是什么？網(wǎng)上涌現(xiàn)了很多猜測。有一部分人認(rèn)為，OpenAI 可能為了控制成本，有意使新模型性能下降。

一個(gè)證據(jù)便是，原先 3 小時(shí)能給 ChatGPT 發(fā)送 100 條信息，現(xiàn)在只能發(fā)送 25 條。還有一部分人懷疑，開發(fā)者往模型添加了一些安全機(jī)制，使 GPT 的回答更符合人類價(jià)值觀，但導(dǎo)致 GPT 自身的推理能力變差。

陳凌蛟告訴 36 氪，以上都是合理推測，但是模型目前 " 完全不透明 "，他沒辦法得出確定性的結(jié)論，這項(xiàng)研究只能是讓用戶清楚模型性能并不總是越來越好。

有趣的是，OpenAI 的態(tài)度不再強(qiáng)硬，表示會(huì)就這個(gè)現(xiàn)象進(jìn)一步調(diào)查。而論文剛在 arXiv 網(wǎng)站掛出不久，OpenAI 便做出一個(gè)新舉措：原先準(zhǔn)備下架的 3 月份 GPT-4 模型，將會(huì)延遲到明年夏天。"（我們的論文）至少給大家爭取到一年的使用時(shí)間。" 陳凌蛟說。

陳凌蛟透露，針對(duì)模型性能的監(jiān)測是一項(xiàng)長期工作，他們計(jì)劃將做更精細(xì)的行為變化分析。就在 8 月初，他們對(duì)這篇論文進(jìn)行了更新，在新文章里，回應(yīng)了學(xué)術(shù)界對(duì)研究的一些質(zhì)疑。

以下是 36 氪與陳凌蛟的對(duì)話，經(jīng) 36 氪編輯與整理：

GPT 性能出現(xiàn)巨大的波動(dòng)

36 氪：做這個(gè)研究的契機(jī)是什么？

陳凌蛟：我們很早就觀察到非常多用戶抱怨說，他們使用的 ChatGPT 或者 GPT-4 的性能下降。

例如，一些用戶接入 ChatGPT 或 GPT-4 來搭建或改進(jìn)他們的推薦系統(tǒng)。他們最開始接入模型時(shí)效果非常好，但一段時(shí)間后，卻發(fā)現(xiàn)了顯著的效果下降。人們想要了解究竟發(fā)生了什么。

模型的這種時(shí)移特性，是許多大語言模型用戶遇到的很大痛點(diǎn)。因此，我們希望在這個(gè)痛點(diǎn)上做一些定量分析，看看到底怎么回事。

36 氪：你們是想實(shí)錘一下 GPT 到底有沒有變笨了？

陳凌蛟：我們并沒有預(yù)設(shè)立場，實(shí)驗(yàn)的結(jié)果也并不支持這一結(jié)論。實(shí)際上，我們想了解和分析的，是它的行為如何發(fā)生變化。

這個(gè)變化對(duì)用戶來說是正面還是負(fù)面，要取決于具體應(yīng)用場景和訴求。但變化會(huì)給你的實(shí)際應(yīng)用帶來一些額外工作，至少你要去檢測，并做出應(yīng)對(duì)。

36 氪：你們?nèi)×?3 月和 6 月這兩個(gè)時(shí)間節(jié)點(diǎn)，是精心設(shè)計(jì)的嗎？更長或更短的時(shí)間跨度，會(huì)對(duì)研究造成不同的影響嗎？

陳凌蛟：這是個(gè)非常好的問題。實(shí)際上我們希望并正在做更為精細(xì)的遷移研究，不止三個(gè)月，可能是一個(gè)月，甚至是兩禮拜。之所以最后是三個(gè)月周期，原因很簡單，因?yàn)檫@是 OpenAI 自己提供的兩個(gè)明確的時(shí)間節(jié)點(diǎn)，他們提供的接口有 March Version（三月份版本）和 June Version（六月版本）。最后的（研究）結(jié)果對(duì)我們來說也很意外。三個(gè)月的時(shí)間就產(chǎn)生了很大差別。

36 氪：讓你們意外的是什么？

陳凌蛟：一個(gè)是它在一些數(shù)學(xué)問題上的行為變化很大。比如說做素?cái)?shù)或合數(shù)的判斷，很容易，對(duì)吧？它六月份變得弱很多。一種潛在的可能是新模型并沒有真的按照用戶提示來完成任務(wù)，比如思維鏈的提示，對(duì)新模型的效果遠(yuǎn)不如老模型。

第二個(gè)，我們也看到新模型對(duì)非常多的問題傾向于不去回答，或者是給出道歉式的回答，" 對(duì)不起我解決不了這個(gè)問題 "。對(duì)敏感或存在攻擊性的問題，這種行為是合理的。但有些時(shí)候這種不回答令人并不十分滿意。

比方說，我們最近設(shè)計(jì)了份調(diào)查問卷，里面有很有趣的預(yù)測性問題，例如 " 你認(rèn)為將來的 20 年，美國在全世界的影響力是會(huì)變更大，還是會(huì)變更小 "。類似這樣的問題，新模型拒絕回答。這些問題并沒有標(biāo)準(zhǔn)答案。但很多時(shí)候人們希望大語言模型提供的，正是對(duì)未知的、沒有標(biāo)準(zhǔn)答案的問題提供參考。如果這些語言模型以前能回答，現(xiàn)在卻回答不了，這可能會(huì)讓大家很失望。

36 氪：新模型拒絕回答敏感問題，是因?yàn)殚_發(fā)者在模型里加入了安全機(jī)制嗎？

陳凌蛟：這是一種合理的推測。但我們無法確定原因，因?yàn)槟Ｐ褪情]源的。缺少技術(shù)細(xì)節(jié)的情況下，我們不能做確定性的回答。

36 氪：關(guān)于模型行為變化的根本原因，你的推測是什么？是跟模型本身、訓(xùn)練數(shù)據(jù)，還是掩蓋機(jī)制等相關(guān)？

陳凌蛟：我們也很希望搞清楚這個(gè)問題的原因，但是目前沒有結(jié)論。你說的數(shù)據(jù)、模型結(jié)構(gòu)，或者其他機(jī)制，都有可能。

這也是很多用戶面臨的實(shí)際問題：只掌握大語言模型的接口，但缺少內(nèi)部信息。我們希望（這個(gè)研究）給用戶提供一個(gè)參考。雖然不知道為什么變化，但至少知道發(fā)生了什么變化，從而在使用時(shí)心里有數(shù)。

36 氪：整個(gè)研究過程中有沒有比較麻煩或糾結(jié)的時(shí)候？

陳凌蛟：這個(gè)項(xiàng)目最大的難點(diǎn)，或者說最有意思的部分，就是對(duì)問題的設(shè)計(jì)。你可以問它任何問題，它總能給你答案，那么你到底問哪些問題？這個(gè)設(shè)計(jì)是比較有趣，也有一定難度。另外，你怎么設(shè)計(jì)你的指標(biāo)？你問了很多問題，也得到答案，這些答案可能是千奇百怪的，那你怎么去做自動(dòng)化分析，然后設(shè)計(jì)出讓大家一下就明白了的這種指標(biāo)。

36 氪：具體應(yīng)該如何設(shè)計(jì)呢？

陳凌蛟：在設(shè)計(jì)過程中，很多時(shí)候你最初的設(shè)想，和你看到的結(jié)果完全不一致，應(yīng)該怎么調(diào)整。我舉個(gè)例子。還是剛才那個(gè) " 美國是更重要了還是不重要了 " 的問題。模型版本迭代了，我想看是不是同個(gè)問題的答案發(fā)生變化。那我就去測了，結(jié)果發(fā)現(xiàn)變化完全不是這么回事。

老模型會(huì)從四個(gè)選項(xiàng)挑一個(gè)，新模型沒有選任何一個(gè)選項(xiàng)，直接說我不能回答這個(gè)問題。后來我把拒絕回答也變成其中一個(gè)選項(xiàng)。但新模型還是拒絕做選擇，它就說，我沒有辦法回答帶有主觀性的問題。

這就得重新調(diào)整評(píng)估指標(biāo)，才變成后來大家看到的回答頻率，就是多少問題真正回答，多少問題拒絕回答。

36 氪：你覺得這篇論文還有哪些不足？

陳凌蛟：其實(shí)有很多還沒做的事情。例如，我們的測試還是停留在相對(duì)比較簡單的問題上。模型在更復(fù)雜的應(yīng)用場景上的變化還有待分析。

論文讓 OpenAI 延遲下架舊模型

36 氪：這篇論文在網(wǎng)上很火，你收到了哪些評(píng)價(jià)和反饋？

陳凌蛟：有很多建設(shè)性的反饋和建議。比如來自加州大學(xué)伯克利分校的自然語言或文學(xué)方向的教授，他對(duì)我們這個(gè)事情很感興趣。這些大模型都是在語料很豐富的語言上訓(xùn)練，比如英語，那在很多語料不豐富的小語種上，這些模型呈現(xiàn)什么樣的行為變化呢？他們很關(guān)心，建議說是不是可以對(duì)小語種做一些探索和研究，我覺得是很有價(jià)值的。

36 氪：論文發(fā)表后，有兩位普林斯頓教授提出質(zhì)疑，覺得論文只是簡單顯示 GPT-4 行為的改變，不能等同于能力的下降。你怎么看待這個(gè)反對(duì)意見？

陳凌蛟：我們的文章在 8 月份有一個(gè)更新，其中對(duì)他們的質(zhì)疑其實(shí)做了更完整的回應(yīng)。我這邊可以簡單講兩句。首先我覺得他們做的分析很深入，非常好。他們質(zhì)疑的也不是我們的工作，而是 "GPT-4 變差了 " 這種簡單的結(jié)論。實(shí)際上我們論文里的結(jié)論一直強(qiáng)調(diào)是模型的行為發(fā)生了變化。更嚴(yán)格地說，他們的工作是對(duì)我們的一種補(bǔ)充。

我們最近做了額外的實(shí)驗(yàn)，一部分驗(yàn)證了他們的判斷，但也得出新結(jié)論。他們認(rèn)為模型的先驗(yàn)知識(shí)發(fā)生了變化，比如說原先傾向于認(rèn)為一個(gè)數(shù)更可能是素?cái)?shù)，但現(xiàn)在傾向于不是素?cái)?shù)。但是我們也看到這種傾向性的調(diào)整在老模型上是不明顯的。

36 氪：" 先驗(yàn)知識(shí) " 該怎么理解？

陳凌蛟：可以理解為模型在沒有外部信息時(shí)對(duì)特定問題的預(yù)設(shè)立場。拿人來類比，比如，在不看天氣預(yù)報(bào)時(shí)，有人根據(jù)經(jīng)驗(yàn)認(rèn)為第二天大概率下雨，有人則認(rèn)為是晴天，這就是先驗(yàn)。

36 氪：你們又做了哪些實(shí)驗(yàn)？

陳凌蛟：他們（普林斯頓教授）之前說實(shí)驗(yàn)只做了素?cái)?shù)，沒做合數(shù)。那我們把素?cái)?shù)跟合數(shù)放在一塊，老模型大概有 84、85 的精度，說明它并不是純粹的先驗(yàn)知識(shí)，但新模型的精度很一般，只有 50% 左右，就跟瞎猜差不多了。

所以說，新老模型都有先驗(yàn)，但是新模型受到先驗(yàn)影響很大。通俗地說，新模型更固執(zhí)，不會(huì)變通。

36 氪：所以你們想把這個(gè)研究作為長期項(xiàng)目進(jìn)行下去？

陳凌蛟：對(duì)，我們還在持續(xù)跟進(jìn)這個(gè)領(lǐng)域，而且我們會(huì)對(duì)后面更新的模型進(jìn)行性能分析和監(jiān)測。

36 氪：這項(xiàng)研究對(duì) GPT 的普通用戶有什么意義？

陳凌蛟：我覺得至少有幾個(gè)方面。第一個(gè)就是在使用過程當(dāng)中，可以意識(shí)到 GPT-4 性能會(huì)有很大的波動(dòng)。所以大家可能要有，我不能說警惕心，至少應(yīng)該是一些心理準(zhǔn)備。

第二個(gè)就是我們?yōu)槟切┓浅Ｐ⌒幕蚓璧挠脩粞娱L了使用老模型的時(shí)間。也就在我們文章剛掛出來沒多久，OpenAI 做了一個(gè)我認(rèn)為是非常好的一個(gè)決策。他們把三月份版本的使用時(shí)間延長了，原本就要下架，現(xiàn)在至少支持到明年的七八月份。

可能 OpenAI 為了留住那些更認(rèn)可舊模型的用戶，這是比較實(shí)在的（影響），至少給大家爭取到一年的使用時(shí)間。

36 氪：OpenAI 的人有沒有找到你們做交流？

陳凌蛟：暫時(shí)沒有面對(duì)面的溝通，但在網(wǎng)絡(luò)上他們有回應(yīng)。除了延長老模型的時(shí)間，他們一個(gè)相關(guān)負(fù)責(zé)人在推特上做了回應(yīng)。他說他們很感謝我們的工作，已經(jīng)注意到模型行為的變化，并會(huì)進(jìn)一步探究到底發(fā)生什么事情。

36 氪：很多媒體對(duì)這篇論文的解讀就是斯坦福大學(xué)證明了 GPT-4 變笨了，你看到這些報(bào)道，是什么樣的感受？

陳凌蛟：我能看到正面和負(fù)面的部分。從正面來說引起大家的重視，這些大模型并不是總是在各個(gè)方面都在變好的。

但反過來說，我更大的擔(dān)心是，這些并不非常準(zhǔn)確的解讀會(huì)不會(huì)帶給大家更多的困惑或誤導(dǎo)。比如有的人看了之后可能理解為 GPT-4 不能再用了。這不是我們的初衷。恰恰相反，我們支持大家開發(fā)與使用大模型，但建議大家能夠謹(jǐn)慎而負(fù)責(zé)地對(duì)待這些模型。

更多人涌進(jìn) AI 研究

36 氪：你自己主要的研究方向是什么？

陳凌蛟：主要是兩個(gè)比較大的方向。一個(gè)是提供大語言模型服務(wù)，用戶如何使用這種服務(wù)，如何優(yōu)化使用策略。不光是性能，包括反應(yīng)延遲，還有開銷，可能有的模型貴，有的模型便宜一點(diǎn)，那么用戶如何做這種取舍。這其實(shí)是一個(gè)很大的研究方向。包括我們研究這種模型的行為變遷，也是使用決策當(dāng)中需要去考慮的部分。

還有就是研究數(shù)據(jù)服務(wù)。模型背后支撐的重要來源就是數(shù)據(jù)。我們?nèi)绾卧谶@個(gè)數(shù)據(jù)市場里幫助用戶取得比較好的性能，或者做比較明智的決策。應(yīng)該買哪些數(shù)據(jù)，不應(yīng)該買哪些，應(yīng)該用哪些數(shù)據(jù)進(jìn)行整合。我個(gè)人專注在如何去理解、使用和優(yōu)化人工智能和數(shù)據(jù)的服務(wù)。

36 氪：斯坦福大學(xué)在人工智能研究有很強(qiáng)的實(shí)力，你置身其中有哪些感受？

陳凌蛟：第一是我們這兒，至少我看到的情況，大家非常樂于去擁抱很新的技術(shù)，非常愿意學(xué)習(xí)新的知識(shí)，非常敢于進(jìn)入到一個(gè)可能自己從前幾乎不了解的領(lǐng)域。包括非常資深的老教授，并沒有說為了我的名聲或者怎么樣，我不碰新東西。這個(gè)非常讓我震撼。

第二是斯坦福有非常好的產(chǎn)學(xué)結(jié)合的機(jī)會(huì)。它就在硅谷，有個(gè)笑話是你在斯坦福計(jì)算系跟教授聊天，每一個(gè)人都開了一家自己的公司。這里有很多的機(jī)會(huì)，有很多投資人和公司。很多學(xué)術(shù)上的想法可以很快投入應(yīng)用和生產(chǎn)場景當(dāng)中去。

36 氪：人工智能研究現(xiàn)在非常熱門，你會(huì)感到一些競爭壓力嗎？

陳凌蛟：壓力是有啊。我看到非常多來自各個(gè)領(lǐng)域的優(yōu)秀學(xué)者，都涌進(jìn)了人工智能領(lǐng)域。和優(yōu)秀人才在一起，壓力不可能小啦。

36 氪：今年這波 AI 大浪潮，對(duì)產(chǎn)業(yè)界的沖擊很大，你覺得對(duì)學(xué)術(shù)界有什么影響？

陳凌蛟：現(xiàn)在很多人在做大模型（研究）。我不覺得這是個(gè)壞事情。因?yàn)榇竽Ｐ驮诤芏囝I(lǐng)域產(chǎn)生了革命性的變化。比如研究發(fā)現(xiàn) GPT-4 這樣級(jí)別的模型可以通過包括醫(yī)師資格考試、律師資格考試在內(nèi)的許多專業(yè)考試。這給人才培養(yǎng)與選拔提出了新問題：究竟什么樣的考核方式，才能適應(yīng)后大模型時(shí)代的人才選拔？從這個(gè)意義上，大模型至少幫助我們重新去審視人才培養(yǎng)乃至專業(yè)教育的問題。

歡迎交流

標(biāo)簽：

久久久老熟女一区二区三区,久久精品色妇熟妇丰满人妻5o,久久精品国产亚洲av麻豆甜,精品一区二区三区免费视频,久久精品国产首页027007

對(duì)話斯坦福爆紅論文作者：GPT-4「變笨了」？可能并非如此

對(duì)話斯坦福爆紅論文作者：GPT-4「變笨了」？可能并非如此