面向语言条件任务的概念强化学习

AAAIMar, 2023

面向语言条件任务的概念强化学习

Conceptual Reinforcement Learning for Language-Conditioned Tasks

Shaohui Peng, Xing Hu, Rui Zhang, Jiaming Guo, Qi Yi...

TL;DR本研究提出了一种概念强化学习 (CRL) 框架，通过多级注意力编码器和两个互信息约束来提高语言条件策略的训练效率和泛化能力，该框架提取了一种类似于人类认知的紧凑且不变的联合表示。

Abstract

Despite the broad application of deep reinforcement learning (RL), transferring and adapting the policy to unseen but similar environments is still a significant challenge. Recently, the language-conditioned policy

deep reinforcement learning language-conditioned policy conceptual reinforcement learning multi-level attention encoder mutual information constraints

发现论文，激发创造

深度强化学习中的迁移语言基础

本文介绍了一种利用自然语言驱动强化学习传递的方法，并使用模型化强化学习方法和实体描述等技术，在不同环境下实现了更好的性能表现。

Aug, 2017

内部 - 外显任务语言发展与翻译驱动的自然语言指导下的强化学习

采用内部 - 外部模式的自然语言控制强化学习方法使用任务语言与谓词表示来学习多个断言以模拟对象关系，并将翻译器用于自然语言到任务语言的转换，有效地提高 13.4% 的成功率和适应性，并成为有效的任务抽象形式，与层次强化学习相容。

Feb, 2023

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020