Jun, 2023

大型语言模型是半参数强化学习代理

TL;DR提出一种新颖的可进化的 LLM(Large Language Model)智能体框架,称为 REMEMBERER,并将 LLM 配备了长期记忆,以便在不同的任务目标中利用过去的经验,这胜过具有固定示例或配备瞬态工作内存的 LLM 智能体。通过引入具有经验记忆的强化学习(RLEM)来更新记忆,整个系统可以从成功和失败的经验中学习,并在不微调 LLM 参数的情况下发展其能力。在两种强化学习任务集上进行了大量实验来评估所提出的框架,结果表明,通过不同的初始化和训练集,平均结果超过了先前的 SOTA 4%和 2%,证明了 REMEMBERER 的优越性和鲁棒性。