RLAdapter: 在开放环境中将大型语言模型与强化学习相结合
该研究探讨了将语义本体中的图谱知识整合到多语言大型语言模型中,通过适配器提高低资源语言在情感分析和命名实体识别中的性能,对八种低资源语言进行了实证评估,提供了适应低资源情景的语言模型优势的见解。
Jul, 2024
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
本文主要介绍了使用基于强化学习的调解模型,来解决使用大型语言模型进行高级指令的效率和成本问题,并在四种实验环境下验证了该方法的准确性和效率。
Jun, 2023
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
通过将推荐模型和大型语言模型相结合,本文介绍了一个名为 RecAgent 的高效框架,旨在创建一个多功能和交互式的推荐系统,通过整合大型语言模型,将传统的推荐系统转化为具有自然语言界面的交互系统。实验结果表明,RecAgent 作为一个对话式推荐系统表现出令人满意的性能,优于通用的大型语言模型。
Aug, 2023
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明,我们的方法提高了样本效率,并实现了比基准方法更卓越的性能。
Nov, 2023
提出了一种利用大语言模型(LLMs)在开放环境中帮助决策和规划,并试图将 LLMs 的知识与现实世界条件相一致的方法,通过多轮反馈修订机制鼓励 LLMs 积极选择适当的修订动作,以此促进探索并提高模型的性能,同时结合子任务重新标记来帮助 LLMs 保持一致性,并训练模型了解任务之间的组合性质,从而通过基于获得的探索经验进行训练,完成更广泛的任务。在 Minecraft 的评估中,证明了我们的方法 LLaMA-Rider 提高了 LLM 在环境探索方面的效率,通过仅使用 1.3k 个收集的数据进行微调,与使用强化学习的基准线相比,训练成本极低。
Oct, 2023
本文探究将强化学习代理人和大规模语言模型相结合,实现在复杂环境中的推理和泛化的能力,通过预训练语言模型作为规划器,简单的合成体智能作为行动器,和与规划器通信的汇报器这三部分,展示这个系统在零 - shot 泛化的任务中的表现,并且讨论了其失败情况以及组件使用增强学习的培训任务。
Feb, 2023
利用大型语言模型优化强化学习的奖励功能,使自动驾驶代理在行为上更加灵活、精准和类人化,探究奖励设计在塑造自动驾驶车辆行为中的重要影响,为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。
May, 2024
深度强化学习代理人在适应训练分布之外的任务时面临着过拟合、灾难性遗忘和样本效率问题。本文探讨了适配器在强化学习中的应用,提出了一种创新的适应策略,在 nanoRTS 环境中实验,提高了训练效率并改进了基础代理人,同时兼容预训练神经网络和基于规则的代理人,提供了融合人类专业知识的方法。
Nov, 2023