通过自然语言引导,我们对深度强化学习技术进行了改进,实现了对 StarCraft II 等任务的有效训练,并与传统的奖励塑形方法相比,取得了更好的性能表现。
Oct, 2019
本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。
Feb, 2023
本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价,表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。
Jul, 2017
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
本文讨论了语言奖励塑形(LRS)在强化学习(RL)中的应用,通过松弛任务约束的奖励扰动技术,降低了奖励有偏性的问题;同时提供了理论和经验证据,表明使用 LRS 奖励训练的代理相比纯 RL 代理收敛更慢。
May, 2023
强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则,以及结合大型语言模型的先进技术如 GPT-4 的实现方式,NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。
Feb, 2024
通过将大型语言模型与 MEDIC 框架结合,我们的研究旨在改善强化学习的样本效率,特别针对稀疏奖励领域和随机转换等问题,以提高 PPO 和 A2C 强化学习算法的样本复杂度,并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。
May, 2024
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020
本文中,我们使用问题生成和问题回答系统来提取辅助目标,从而实现针对自身解决问题的能力,从而提高了自动奖励塑造方法的采样效率。
Jun, 2022
本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中,旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务(文本连续生成、摘要),取得了不错的结果,但模型可能会利用人类评估者的简单启发式规则。
Sep, 2019