香港股票財經網新聞

Stock-hk.com

來源:量子位
作者:夢晨 克雷西

大模型天花板GPT-4,它是不是……變笨了

先是少數用戶提出質疑,隨後大量網友表示自己也注意到了,還貼出不少證據。


有人反饋,把GPT-4的3小時25條對話額度一口氣用完了,都沒解決自己的代碼問題。

無奈切換到GPT-3.5,反倒解決了


總結下大家的反饋,最主要的幾種表現有:

  • 以前GPT-4能寫對的代碼,現在滿是Bug

  • 回答問題的深度和分析變少了

  • 響應速度比以前快了

這就引起不少人懷疑,OpenAI是不是為了節省成本,開始偷工減料

兩個月前GPT-4是世界上最偉大的寫作助手,幾周前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那麽智能。


這就不免讓人想起微軟新必應“出道即巔峰”,後來慘遭“前額葉切除手術”能力變差的事情……

網友們相互交流自己的遭遇後,“幾周之前開始變差”,成了大家的共識。

一場輿論風暴同時在Hacker News、Reddit和Twitter等技術社區形成。


這下官方也坐不住了。

OpenAI開發者推廣大使Logan Kilpatrick,出面回復了一位網友的質疑:

API 不會在沒有我們通知您的情況下更改。那里的模型處於靜止狀態


不放心的網友繼續追問確認“就是說GPT-4自從3月14日發布以來都是靜態的對吧?”,也得到了Logan的肯定回答。


“我注意到對於某些提示詞表現不一致,只是由於大模型本身的不穩定性嗎?”,也得到了“Yes”的回復。


但是截至目前,針對網頁版GPT-4是否被降級過的兩條追問都沒有得到回答,並且Logan在這段時間有發布別的內容。


那麽事情究竟如何,不如自己上手測試一波。

對於網友普遍提到GPT-4寫代碼水平變差,我們做了個簡單實驗。

實測GPT-4“煉丹”本領下降了嗎?


3月底,我們曾實驗過讓GPT-4“煉丹”,用Python寫一個多層感知機來實現異或門。


ShareGPT截圖,界面稍有不同
ShareGPT截圖,界面稍有不同

讓GPT-4改用numpy不用框架後,第一次給出的結果不對。

修改兩次代碼後,運行得到了正確結果。第一次修改隱藏神經元數量,第二次把激活函數從sigmoid修改成tanh。


6月2日,我們再次嚐試讓GPT-4完成這個任務,但換成了中文提示詞。

這回GPT-4第一次就沒有使用框架,但給的代碼仍然不對。

後續只修改一次就得到正確結果,而且換成了力大磚飛的思路,直接增加訓練epoch數和學習率。



回答的文字部分質量也未觀察到明顯下降,但響應速度感覺確實有變快。

由於時間有限,我們只進行了這一個實驗,且由於AI本身的隨機性,也並不能否定網友的觀察。

最早4月19日就有人反饋


我們在OpenAI官方Discord頻道中搜索,發現從4月下旬開始,就不時有零星用戶反饋GPT-4變差了。


但這些反饋並未引發大範圍討論,也沒有得到官方正式回應。

5月31日,Hacker News和Twitter同天開始大量有網友討論這個問題,成為整個事件的關鍵節點。

HackerNews一位網友指出,在GPT-4的頭像還是黑色的時候更強,現在紫色頭像版在修改代碼時會丟掉幾行。

在Twitter上較早提出這個問題的,是HyperWrite(一款基於GPT API開發的寫作工具)的CEO,Matt Shumer。


但這條推文卻引發了許多網友的共鳴,OpenAI員工回復的推文也正是針對這條。

不過這些回應並沒讓大家滿意,反而討論的範圍越來越大。

比如Reddit上一篇帖子提到,原來能回答代碼問題的GPT-4,現在連哪些是代碼哪些是問題都分不出來了。


在其他網友的追問下,帖子作者對問題出現的過程進行了概述,還附上了和GPT的聊天記錄。


對於OpenAI聲稱模型從三月就沒有改動過,公開層面確實沒有相關記錄。

ChatGPT的更新日誌中,分別在1月9日1月30日2月13日提到了對模型本身的更新,涉及改進事實準確性和數學能力等。

但自從3月14日GPT-4發布之後就沒提到模型更新了,只有網頁APP功能調整和添加聯網模式、插件模式、蘋果APP等方面的變化。


假設真如OpenAI所說,GPT-4模型本身的能力沒有變化,那麽這麽多人都感覺它表現變差是怎麽回事呢?

很多人也給出了自己的猜想。

第一種可能的原因是心理作用

Keras創始人François Chollet就表示,不是GPT的表現變差,而是大家渡過了最初的驚喜期,對它的期待變高了。


Hacker News上也有網友持相同觀點,並補充到人們的關注點發生了改變,對GPT失誤的敏感度更高了。


拋開人們心理感受的差異,也有人懷疑API版本和網頁版本不一定一致,但沒什麽實據。

還有一種猜測是在啟用插件的情況下,插件的額外提示詞對要解決的問題來說可能算一種汙染


WebPilot插件中的額外提示詞
WebPilot插件中的額外提示詞

這位網友就表示,在他看來GPT表現變差正是從插件功能開始公測之後開始的。


也有人向OpenAI員工詢問是否模型本身沒變,但推理參數是否有變化?


量子位也曾偶然“拷問”出ChatGPT在iOS上的系統提示詞與網頁版並不一致

  • 如果在手機端開啟一個對話,它會知道自己在通過手機與你交互。

  • 會把回答控製在一到兩句話,除非需要長的推理。

  • 不會使用表情包,除非你明確要求他使用。


不一定成功,大概率拒絕回答
不一定成功,大概率拒絕回答

那麽如果在網頁版繼續一個在iOS版開啟的對話而沒意識到,就可能觀察到GPT-4回答變簡單了。

總之,GPT-4自發布以來到底有沒有變笨,目前還是個未解之謎。

但有一點可以確定:

3月14日起大家上手玩到的GPT-4,從一開始就不如論文里的。

與人類對齊讓AI能力下降


微軟研究院發表的150多頁刷屏論文《AGI的火花:GPT-4早期實驗》中明確:

他們早在GPT-4開發未完成時就得到了測試資格,並進行了長期測試。

後來針對論文中很多驚豔例子,網友都不能成功用公開版GPT-4復現

目前學術界有個觀點是,後來的RLHF訓練雖然讓GPT-4更與人類對齊——也就更聽從人類指示和符合人類價值觀——但讓也讓它自身的推理等能力變差

論文作者之一、微軟科學家張弋在中文播客節目《What’s Next|科技早知道》S7E11期中也提到:

那個版本的模型,比現在外面大家都可以拿得到的GPT-4還要更強,強非常非常多。

舉例來說,微軟團隊在論文中提到,他們每隔相同一段時間就讓GPT-4使用LaTeX中的TikZ畫一個獨角獸來追蹤GPT-4能力的變化。

論文中展示的最後一個結果,畫得已經相當完善。


但論文一作Sebastien Bubeck後續在MIT發表演講時透露了更多信息。

後來當OpenAI開始關注安全問題的時候,後續版本在這個任務中變得越來越糟糕了。


與人類對齊但並不降低AI自身能力上限的訓練方法,也成了現在很多團隊的研究方向,但還在起步階段。

除了專業研究團隊之外,關心AI的網友們也在用自己的辦法追蹤著AI能力的變化。

有人每天讓GPT-4畫一次獨角獸,並在網站上公開記錄。


從4月12日開始,直到現在也還沒看出來個獨角獸的大致形態。


當然網站作者表示,自己讓GPT-4使用SVG格式畫圖,與論文中的TikZ格式不一樣也有影響。

並且4月畫的與現在畫的似乎只是一樣差,也沒看出來明顯退步。


038.png最後來問問大家,你是GPT-4用戶麽?最近幾周有感到GPT-4能力下降麽?歡迎在評論區聊聊~

編輯/Hoten

You may also like
你可能會喜歡

標題:GPT-4變笨引爆輿論!文本代碼質量都下降,OpenAI剛剛回應了降本減料質疑

返回:香港股票財經網新聞

財經新聞常見問題 FAQ

甚麼因素會影響錢財的價值?

由於產品和服務的價格不斷上升,故幣值會隨時間而降低,這便是通貨膨脹。幣值會受以下因素侵蝕通脹:簡單來說,產品和服務的價格上升,就會造成通脹。當物價上升,受薪人士便會要求加薪,隨著通脹加劇,貨幣的購買力便不斷減弱。 利率波動:當利率下降,存款的利息回報便會減少。如果存款利率低於通脹,儲蓄便會失去原有的價值。但某類投資如股票和債券等卻可能因息口下降而升值。

為何銀色債券以債務工具於中央結算系統(CMU) 作清算及儲存 ?

根據銀色債券發行通函,若客戶經配售銀行申請銀色債劵,所分配的銀色債券會以債務工具於中央結算系統(CMU)作清算。

甚麼是債券?

債券是由政府、公司或其他機構發行的一種借貸票據。當您購入債券,即等同向發行者提供貸款,發行者則承諾於債券到期日以指定價格贖回債券,而在到期日前則須支付指定的利息。債券的種類繁多,不同的發行者以不同的條款發行債券。例如:定息債券、浮息債券、零息債券及存款證等。一般來說,債券及存款證的回報比較穩定。目前,銀行可代客買賣多種債券和存款證,除備有多種主要貨幣選擇外,客戶亦可選擇不同債券發行機構,包括政府,如中國政府、美國政府及香港特區政府等,或本地著名的半官方機構,超國機構及世界知名的公司。此外,債券年期由一年至三十年不等,而票面收益亦各異,選擇眾多,能符合投資者的不同需要。投資金額低至港幣1萬元。

甚麼是證券?

證券是一般可在股票市場交易之投資工具的統稱。任何人士均可透過經紀或銀行從事證券投資,並可從每日的報章或互聯網觀察投資行情。 證券投資的回報潛力一般高於儲蓄戶口。在經濟蓬勃的地區,只要假以時日,股市一般都會出現增長,有時更會在短時間內急升。但是,股市波動在所難免,所以購買證券不應視為一種短線的謀利方法。購買證券需要支付有關的交易費用,例如經紀佣金。如果要享有交收的便利,您可考慮採用銀行證券買賣服務。除了自行投資證券外,您亦可委託專業投資管理人員或公司代勞。

何謂「首次公開招股」(IPO)?

「首次公開招股」(IPO)是指一間公司首次向公眾投資者發行新股,債券或銀行發行的存款證。此類股票,債券或存款證有可能在證券交易所上市買賣。

為何我經銀行IPO申請獲分配的通脹掛鈎債券以債務工具於中央結算系統(CMU) 作清算及儲存?

根據通脹掛鈎債券發行通函, 若客戶經配售銀行申請該債劵, 所分配的債券會以債務工具中央結算系統(CMU)作清算,及在銀行的債券買賣服務透過場外交易買賣。

如何啓動我的中國A股交易服務?

如您已持有銀行綜合投資戶口及人民幣儲蓄戶口,即可買賣合資格的中國A股, 毋須登記。如您未持有任何銀行綜合投資戶口,亦可透過銀行銀行網上理財(只適用於現有銀行銀行客戶)或親臨任何一間銀行分行開立綜合投資戶口,過程方便快捷。此服務只適用於非美國個人客戶並持有符合美國稅務局要求的身分證明文件,例如香港永久居民身份証或護照。

參加銀行的「股票月供投資計劃」有什麼好處?

您可以:以符合預算的金額購入股票透過「成本平均法」減低投資風險享受中長線投資所帶來的較高回報潛力迎合個人的儲蓄投資需要

甚麼是單位信託基金?我怎受惠於基金投資?

單位信託基金亦稱互惠基金為投資者提供多元化投資機會,方法是由基金經理把眾投資者的資金,匯聚成一筆龐大基金,用以在廣泛地區及市場作不同的投資。所以,即使個人的投資額不大,投資者亦可參予全球各地市場的證券、債券、貨幣及商品投資。這種多元化投資稱為投資組合。單位信託基金提供多項有利因素:分散風險:由於分散投資,故基金的風險通常低於投資單一股票。但不同的基金,其風險和回報的水平,當然亦會有差異。專業管理:基金經理的日常工作主要是研究和管理投資。個人投資者一般很難像基金經理對全球市場有透徹的認識,但如果購買單位信託基金,便可享有基金經理提供的專業知識。投資全球市場:透過單位信託基金,您的資金可運用於個人投資者未必能夠涉足的海外市場,從而擴闊投資範疇。經濟效益:由於大量投資者的資金以單一基金處理,故能平均攤銷經營成本和佣金,減低個人投資者支付的費用。流動性:您可在任何交易日(但基金所掛屬國家的公眾假期除外)買賣單位信託基金,增加資金流動性。有些單位信託基金產品與各證券交易所上市的指數期權掛屬,亦有時與貨幣期權掛屬。這種基金的風險略高於多元化的基金組合。

什麼是結構投資產品?它是如何運作的?

結構投資產品是涉及衍生工具的投資產品,其回報﹑到期金額及/或其結算方法是參照1) 任何一項或多於一項的參考資產的價格、價值或水平的變動; 及/或 2) 任何事件的發生或不發生而釐定。

有哪些資產屬於要約範圍內?

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券(即債券,存款證和股票),Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處(例如帶有ISIN 前置代號XS,US,AU,CA)。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

當「高息投資存款」的存款日為提交指示之後第2個營業日,如何計算綜合理財戶口有抵押信貸的信貸比例?

若已於交易日(Trade Date) 開立「高息投資存款」並處於存款日(Deposit Date)之前的時間: 如以外幣作為存款貨幣,該筆已保留於戶口作為扣除交易所需的款項將會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。因此有抵押信貸的信貸額將會下降,基於外幣存款在「高息投資存款」交易日之前被計算為有抵押信貸的信貸額。 如以港元作為存款貨幣,該筆已保留於戶口作為扣除交易所需的款項將亦會從戶口可用結餘 (account available balance) 中扣除並不會納入有抵押信貸的計算。但基於港元存款在「高息投資存款」交易日之前已不納入為有抵押信貸的信貸額,因此有抵押信貸的信貸額不會受影響。 在「高息投資存款」存款日(Deposit Date)當日(即交易日之後第2個營業日),以任何貨幣作為存款貨幣的交易金額將會納入計算為有抵押信貸的信貸額,直至到期日為止。

如何經銀行投資外匯?

您可以經銀行透過多種方法投資外匯。您可使用24小時外幣兌換服務讓您隨時隨地透過網上理財或流動理財設立兌換指示。若您對個別外幣有特定的目標兌換價,您可透過外匯限價買賣服務預設指示。若您想以定期儲蓄的形式累積外幣或人民幣,您可透過外幣/人民幣轉存服務預設兌換指示,我們會根據您的預設指令自動替您執行指示。

要約僅針對透過歐洲清算銀行有限公司(Euroclear Bank SA/NV) 直接持有的證券(即債券,存款證和股票),Euroclear Bank SA / NV是本行參與的唯一歐洲經濟區中央證券存管處(例如帶有ISIN 前置代號XS,US,AU,CA)。該要約與透過Euroclear的其他託管人或附屬託管人持有的證券無關。

您首先需要了解個人的理財需要或投資目標、財政狀況及風險取向。您的目標可包括應付以下各項需要:保障家人子女教育退休策劃管理及累積財富遺產規劃您亦須考慮您的目標,投資年期,可承擔的投資金額及個人的投資偏好。

你們會於何時強制出售我的股票(斬倉?

如(i) 您的股票孖展比率連續3個月維持於105%至少於120%;或(ii) 股票孖展比率一旦觸及120%或以上;或(iii)我們不時訂定之時間,我們將強制出售您的股票(斬倉),不會另行通知。