面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

Apr, 2024

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs

Bahar Radmehr, Adish Singla, Tanja Käser

TL;DR通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Abstract

There has been a growing interest in developing learner models to enhance learning and teaching experiences in educational environments. However, existing works have primarily focused on structured environments relying on meticulously crafted representations of tasks, thereby limiting

learner models reinforcement learning large language models open-ended learning environments pharmacy environment

发现论文，激发创造

基于 LLM 的多智能体强化学习：当前和未来方向

近年来，大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果，但将基于大型语言模型的强化学习扩展到多智能体系统并不容易，因为许多方面，如智能体之间的协调和通信，在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究，本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架，并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信，还考虑了语言组件在框架中实现的人机交互场景。

May, 2024

强化学习智能体的心智模型构建：基于语言模型的研究

大语言模型是否能够忠实地模拟决策智能体的智能能力，本研究通过实证方法首次探讨了大语言模型在通过推理构建决策智能体的心智模型方面的能力，并提供了关于其对强化学习智能体行为的解释性约束方面的新见解。

Jun, 2024

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零 - shot 泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

通过大型语言模型探索自主代理：一项综述

大型语言模型（LLMs）正在改变人工智能，使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力，有望在从客户服务到医疗保健等各个领域引发革命。然而，它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索，以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展，预计它们将成为我们数字生活中不可或缺的一部分，协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。

Apr, 2024

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024