強(qiáng)化學(xué)習(xí)之父、2024 年 ACM 圖靈獎(jiǎng)得主 Richard Sutton 曾指出,人工智能正在邁入「經(jīng)驗(yàn)時(shí)代」—— 在這個(gè)時(shí)代,真正的智能不再僅僅依賴大量標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí),而是來源于在真實(shí)環(huán)境中主動(dòng)探索、不斷積累經(jīng)驗(yàn)的能力。正如人類通過實(shí)踐理解世界、優(yōu)化行為一樣,智能體也必須在交互中積累經(jīng)驗(yàn)、改進(jìn)策略,才能掌握長(zhǎng)期決策的能力。
無獨(dú)有偶,特斯拉前 AI 負(fù)責(zé)人,OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 進(jìn)一步指出,環(huán)境的多樣性與真實(shí)性,是智能體獲得泛化能力、應(yīng)對(duì)復(fù)雜任務(wù)的關(guān)鍵前提。缺乏豐富的環(huán)境,智能體就無法充分暴露于多樣化情境,也難以從經(jīng)驗(yàn)中形成穩(wěn)健的決策策略。
在這一背景下,復(fù)旦、創(chuàng)智、字節(jié)的研究者們基于智能體自我進(jìn)化框架 AgentGym,全新打造了多環(huán)境強(qiáng)化學(xué)習(xí)智能體訓(xùn)練框架 AgentGym-RL
本文的第一作者為復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室博士生奚志恒,通訊作者為復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室的桂韜教授和張奇教授。
這一框架是首個(gè)無需監(jiān)督微調(diào)、具備統(tǒng)一端到端架構(gòu)、支持交互式多輪訓(xùn)練,且在多類真實(shí)場(chǎng)景中驗(yàn)證有效的 LLM 智能體強(qiáng)化學(xué)習(xí)框架,為 LLM 智能體的強(qiáng)化學(xué)習(xí)提供了全新的解決方案。
依托 AgentGym-RL 框架,研究人員創(chuàng)新性地提出了智能體范式下擴(kuò)展測(cè)試時(shí)計(jì)算的新路徑 ——擴(kuò)展環(huán)境交互(Scaling Interaction)。其核心是通過增加訓(xùn)練與測(cè)試階段模型和外部環(huán)境的交互回合數(shù),讓模型借助多輪反饋逐步完善決策、提升表現(xiàn)。
相較于傳統(tǒng)測(cè)試時(shí)擴(kuò)展方法,新路徑優(yōu)勢(shì)顯著:傳統(tǒng)方法局限于模型內(nèi)部,僅靠延長(zhǎng)思維鏈消耗更多 Token,缺乏與外部環(huán)境的實(shí)時(shí)互動(dòng),難以應(yīng)對(duì)復(fù)雜任務(wù)的動(dòng)態(tài)場(chǎng)景需求;而擴(kuò)展交互輪次突破了這種封閉式推理,允許模型依據(jù)每輪反饋動(dòng)態(tài)修正策略,最終以更結(jié)構(gòu)化的決策流程、更高效率的問題解決路徑完成任務(wù),成為智能體范式下表現(xiàn)更優(yōu)的測(cè)試時(shí)擴(kuò)展方案。
然而,長(zhǎng)交互輪次訓(xùn)練面臨著容易出現(xiàn)崩潰的問題。針對(duì)這一痛點(diǎn),研究團(tuán)隊(duì)再次突破,提出了ScalingInter RL 交互輪次擴(kuò)展策略,通過分階段增加模型最長(zhǎng)交互輪次限制,使智能體能夠先在短交互輪次下掌握基礎(chǔ)技能,再逐步過渡到中長(zhǎng)交互輪次解決復(fù)雜任務(wù),平衡了智能體訓(xùn)練過程中的探索與利用,有效規(guī)避了模型崩潰的風(fēng)險(xiǎn),成功構(gòu)建了穩(wěn)定的交互輪次擴(kuò)展訓(xùn)練范式。