來源:綜合新智元、AI Explained
最近,似乎全世界都在圍剿ChatGPT。
前一陣由馬斯克、圖靈獎得主Bengio等大佬聯名發起的暫停高級AI研發的公開信,現在簽名已經上升到9000多人。
即使全世界都對超級AI如臨大敵,想趕緊懸崖勒馬,恐怕也為時已晚。
因為,如今的AI,已經學會自我進化了!
前段時間,前谷歌大腦研究工程師Eric Jang發現:GPT-4能夠以合理的方式批評自己的成果。
與其為大型語言模型(LLM)尋找完美的提示(讓我們一步一步思考),不如讓LLM評估自己的輸出並立即糾正自己的錯誤。
甚至連特斯拉前AI總監,OpenAI研究科學家Andrej Karpathy大讚,這是一個很好的例子,說明我們還沒有看到GPT-4的最大能力。
在Eric Jang給出的例子中,曾看到微軟研究員發推說GPT-4根本無法寫出「不押韻」的詩歌。
然而,當再去詢問GPT-4是否完成了任務。這時,它道歉後,生成了一個不押韻的詩!可以說是滿分。
這恰恰印證了GPT-4是有「反思」能力的。
最近,來自美國東北大學、MIT等機構研究者提出了Reflexion(反思)。這一方法賦予智能體動態記憶,以及自我反思的能力。
研究人員諾亞·希恩和阿什溫·戈皮納特寫道:“人類利用曾經被認為是人類智力獨有的決策過程,開發出新的技術來達到最先進的標準,這種情況並不是每天都會發生的。”“但是,這正是我們所做的。”
Reflexion 利用GPT-4的各種能力來進行不同的測試,並引入了一個框架,允許AI模擬類似人類的自我反思行為並評估其表現。在這個過程中,它引入了額外的步驟,在這些步驟中,GPT-4設計測試來質疑自己的答案,尋找錯誤和失誤,然後根據發現的結果重寫答案。
Reflexion智能體的整體架構
為了驗證方法的有效性,研究人員評估了智能體在AlfWorld環境中完成決策任務的能力,以及在HotPotQA環境中完成知識密集型、基於搜索問答任務的能力。
在Alfworld測試中,Reflexion(反思機製)將GPT-4的成功率從73%左右提高到接近完美的97%,在134項任務中只有4項失敗。
在另一項名為HotPotQA的測試中,GPT-4的準確率僅為34%,但應用反思機製的GPT-4的準確率顯著提高,達到54%。
在HumanEval測試中,也就是測試模型編寫代碼的能力時,GPT-4準確率是67%,但通過反思機製,它的準確率躍升至令人印象深刻的88%。該測試包含了模型從未見過的164個Python編程問題。
有網友便表示,你可以通過要求 GPT-4 反思「你為什麽錯了?」,並為自己生成一個新的提示,將這個錯誤原因考慮在內,直到結果正確,從而將GPT-4的性能提高驚人的30%。
這樣看來,就像Eric Jang所說,
我們現在可以考慮一種「後綴提示工程」,而不是巧妙的「前綴提示工程」。這將鼓勵LLM在先前生成的解決方案中找到更正和不一致的地方。
編輯/new