语言智能能取代 PPO 吗？对 OpenAI Gym 的初步实证研究

Dec, 2023

语言智能能取代 PPO 吗？对 OpenAI Gym 的初步实证研究

Can language agents be alternatives to PPO? A Preliminary Empirical Study On OpenAI Gym

Junjie Sheng, Zixiao Huang, Chuyun Shen, Wenhao Li, Yun Hua...

TL;DR语言代理是否能成为传统序列决策任务中 PPO 代理的替代品？本研究通过在 OpenAI Gym 中构建 TextGym 模拟器，对 PPO 代理和语言代理进行有效的比较，提出了基于统一强化学习框架和五个精确的领域知识控制场景水平的 RL-inspired 语言探索利用（EXE）代理来解决任务。通过数值实验和消融研究，我们对语言代理的决策能力进行了有价值的探索，并进行了初步评估其在经典序列决策问题中成为 PPO 代理替代品的潜力。本研究为语言代理的性能提供了新的认识，并为该领域的未来研究铺平了道路。

Abstract

The formidable capacity for zero- or few-shot decision-making in language agents encourages us to pose a compelling question: Can language agents be alternatives to ppo agents in traditional →

language agents ppo agents sequential decision-making textgym explore-exploit-guided language agent

发现论文，激发创造

强化学习是否适用于自然语言处理：自然语言策略优化的基准、基线和构件

本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐，提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准，并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。

Oct, 2022

文本环境中的强化学习智能体的语言引导探索

通过使用预训练语言模型（称为 GUIDE）为强化学习代理（称为 EXPLORER）提供决策级别的指导，我们引入了 Language Guided Exploration（LGE）框架，并观察到 LGE 在具有挑战性的文本环境中显著优于传统强化学习代理、行为克隆和文本决策转换等先进方法。

Mar, 2024

基于深度强化学习的执行代码生成

利用深度强化学习算法的 PPOCoder 框架，将预训练编程语言模型与外部执行反馈相结合，用于自动化代码生成任务，并在多项实验中展示了其在编译成功率和语法正确性方面的显著效果。

Jan, 2023

多智能体游戏中语言的出现：学习使用符号序列进行沟通

通过玩转指代博弈，研究者们发现使用可微分方式（ST Gumbel-softmax estimator）的强化学习方法能够有效地解决学习沟通的问题，从而使得交互遵循自然语言的组成性和可变性。

May, 2017

语言模型是否容易受到 PPO 攻击？

我们的研究旨在通过使用静态学习的情感分类器评估奖励对积极情感生成的影响，并在机械翻译可解释性的视角下研究经过近端策略优化的预训练 GPT-2 模型。

May, 2024

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

专业代理 -- 将大型语言模型演变为具有人类级别能力的自主专家

大型语言模型的出现催生了自然语言处理的重大进展，通过引入专业代理框架（PAgents）利用 LLM 的能力创建具有可控、专业级、互动型专长的自主代理，我们认为通过持续发展的专业知识，PAgents 可以重塑专业服务。本文旨在激发关于 LLM 的有前景的现实应用的讨论，我们认为 PAgents 的日益复杂和集成可能会导致人工智能系统在复杂领域展示专业掌握能力，服务于重要需求，并潜在地实现人工通用智能。

Feb, 2024

基于文本游戏的自然语言动作空间的最小化方法

该研究重思了文本游戏里针对动作空间探索的挑战并提出了一种基于可接受动作的训练方法和一个不需要任何语言 / 知识模型的基于文本的 actor-critic 智能体，相比使用了语言 / 知识模型的强基线和最先进的智能体，我们的方法在 10 个 Jericho 游戏中表现更好，强调了设计轻便，用新视角有效地利用环境信息足以探索超大的行动空间。

May, 2023

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Apr, 2024

ExpeL：LLM 代理人是经验学习者

我们介绍了一种名为 ExpeL 的经验学习代理，它可以自主地收集经验并从训练任务的语料库中提取知识，通过回想其提取的洞察和过去的经验做出明智的决策，我们的实证结果突出了 ExpeL 代理的强大学习效果，并展示了其在性能上的持续增强以及迁移学习潜力。

Aug, 2023