利用反强化学习的多重奖励组分将语言映射到程序

EMNLPOct, 2021

利用反强化学习的多重奖励组分将语言映射到程序

Mapping Language to Programs using Multiple Reward Components with Inverse Reinforcement Learning

Sayan Ghosh, Shashank Srivastava

TL;DR本文介绍了一种基于逆强化学习和良好奖赏定义的模型，将自然语言指令映射成能够被计算机处理的程序，并在 VirtualHome 框架中进行了改进实验，取得了更好的性能表现，且数据效率更高，并获得了人类评估者更高的评分。

Abstract

Mapping natural language instructions to programs that computers can process is a fundamental challenge. Existing approaches focus on likelihood-based training or using reinforcement learning to fine-tune models based on a single reward. In this paper, we pose program generation from l

natural language instructions inverse reinforcement learning interpretable reward components virtualhome framework data-efficient

发现论文，激发创造

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

利用语法和强化学习进行神经程序合成

本文提出了两种新的方法来解决程序合成中的限制，分别通过增加语义正确生成的概率和语法正确的程序的概率来解决。

May, 2018

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

利用神经机器翻译实现反强化学习导航指令生成

该研究提出了一种导航指南模型，使机器人能够生成自然语言指令，帮助人们在事先未知的环境中进行导航，该模型使用人类演示数据通过反向强化学习训练决策策略，并通过神经序列到序列模型从自然语料库中生成自由形式的语句，实验测评表明，在与人类参考指令进行比较时，该方法获得了 72.18% 的 BLEU 分数，并且缩小了人类与机器人交互时的差距。

Oct, 2016

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

逆强化学习实现多样文本生成

本论文针对文本生成中奖励稀疏和模式崩溃等问题，提出采用反强化学习方法实现文本生成，即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数，将奖励和策略函数进行优化，实验结果表明该方法较之前的方法可以生成更高质量的文本。

Apr, 2018

通过编程组合学习实现分层程序化强化学习

该研究提出了一种基于元策略的方法，使用预先生成的程序数据集来学习程序嵌入空间，并找到解决任务的程序。实验结果表明，该方法可在 Karel 领域产生复杂的行为，并超越现有的方法。

Jan, 2023