本文研究了利用自然语言来推动控制策略的泛化,并引入了一个新的多任务环境 Messenger,其中包括自由形式的文本手册,描述环境动态。使用实体 - 条件的注意力模块,作者提出了一个新的模型 EMMA,它可以从文本到观察值学习实体和动态之间的潜在关系,并实现了成功的零样本泛化。
Jan, 2021
本文探讨了基于文本的游戏控制策略的学习方法。该方法使用深度强化学习框架,联合学习游戏状态表示和行动策略。通过把文本转化为向量,能够更好地捕捉游戏状态的语义表示。实验结果表明,我们提出的方法显著优于传统基于词袋模型的方法。
Jun, 2015
该研究探讨了使用知识图谱作为域知识传输的表示来训练文本冒险游戏中的强化学习智能体的方法,测试其在多个游戏上的迁移学习能力,结果表明这种方法能够更快地学习高质量的控制策略。
Aug, 2019
本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价,表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。
Jul, 2017
该研究针对强化学习中的新环境和动态环境,通过使用描述性文本探究使用教育性文本是否有助于代理在这些环境下的泛化,并通过 BabyAI++ 开发了一种基于视觉语言学习的新方法,实验结果表明,使用描述性文本可以提高 RL 代理在不同动态环境下的泛化能力。
Apr, 2020
提出了将自然语言理解与强化学习紧密结合的想法,并对现有技术及未来研究方向进行了调研。
Jun, 2019
通过使用预先训练的文本语言模型(BERT),我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理,以适应自然人指令,从而在人类给出自然指令的情况下,实现从合成模板命令到指令的零 - shot 传输。
May, 2020
通过多个教师 - 学生代理的课程学习框架,GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法,通过利用强化学习、课程学习、连续学习和语言模型的进展,能够适应以前未见过的语言指令并验证了其有效性。
Jan, 2024
强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则,以及结合大型语言模型的先进技术如 GPT-4 的实现方式,NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。
Feb, 2024
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020