内部 - 外显任务语言发展与翻译驱动的自然语言指导下的强化学习

Feb, 2023

内部 - 外显任务语言发展与翻译驱动的自然语言指导下的强化学习

Natural Language-conditioned Reinforcement Learning with Inside-out Task Language Development and Translation

Jing-Cheng Pang, Xin-Yu Yang, Si-Hang Yang, Yang Yu

TL;DR采用内部 - 外部模式的自然语言控制强化学习方法使用任务语言与谓词表示来学习多个断言以模拟对象关系，并将翻译器用于自然语言到任务语言的转换，有效地提高 13.4% 的成功率和适应性，并成为有效的任务抽象形式，与层次强化学习相容。

Abstract

natural language-conditioned reinforcement learning (RL) enables the agents to follow human instructions. Previous approaches generally implemented language-conditioned RL by providing human instructions in natural language (NL) and training a following policy. In this outside-in appro

natural language-conditioned reinforcement learning task language predicate representation translator hierarchical rl

发现论文，激发创造

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

基于语言条件的结构化数据模仿学习

通过自然语言条件化的模拟学习方法，结合像素感知、自然语言理解和多任务连续控制的神经网络，可以在无需任务或语言标签的情况下，显著提高任务成果，同时将语言注释成本降低到总数据量的不到 1％。

May, 2020

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

面向语言条件任务的概念强化学习

本研究提出了一种概念强化学习 (CRL) 框架，通过多级注意力编码器和两个互信息约束来提高语言条件策略的训练效率和泛化能力，该框架提取了一种类似于人类认知的紧凑且不变的联合表示。

Mar, 2023

通过自然语言反馈在目标条件下强化学习中的利用

通过使用自动生成的语言反馈以及改进的决策变压器架构，在强化学习中引入更丰富、更贴近人类反馈的方式可以改善智能体的泛化性能。

Dec, 2023

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023