面向语言条件任务的概念强化学习
采用内部 - 外部模式的自然语言控制强化学习方法使用任务语言与谓词表示来学习多个断言以模拟对象关系,并将翻译器用于自然语言到任务语言的转换,有效地提高 13.4% 的成功率和适应性,并成为有效的任务抽象形式,与层次强化学习相容。
Feb, 2023
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
本文提出了使用语言作为抽象概念的层次强化学习方法,通过学习基本概念和子技能来解决时间延长的任务,构建了开源对象交互环境,证明了采用这种方法,代理可以从原始像素观察中学习解决多样化的任务,语言的组合性质使得学习多种子技能变得关键。
Jun, 2019
强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则,以及结合大型语言模型的先进技术如 GPT-4 的实现方式,NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。
Feb, 2024
本文提出了基于对比学习的强化学习算法,通过学习动作标记的轨迹对比学习来直接获得好的表示,并成功地将其应用于目标条件 RL 任务。在一系列任务中,对比 RL 方法表现更好,且不需要使用数据增强或辅助目标。
Jun, 2022
本研究探讨了使用反强化学习将语言命令作为奖励函数的问题,并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法,即语言条件奖励学习(LC-RL)。实验结果表明,与直接学习语言条件策略相比,使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。
Feb, 2019
通过使用预先训练的文本语言模型(BERT),我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理,以适应自然人指令,从而在人类给出自然指令的情况下,实现从合成模板命令到指令的零 - shot 传输。
May, 2020