针对智能代理人自然语言交流的定期策略优化

IJCAIJun, 2018

针对智能代理人自然语言交流的定期策略优化

Scheduled Policy Optimization for Natural Language Communication with Intelligent Agents

Wenhan Xiong, Xiaoxiao Guo, Mo Yu, Shiyu Chang, Bowen Zhou...

TL;DR提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法，该训练范式提供了有效的探索和更好的泛化能力，相比现有的集成模型，我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50％，同时还包括系统性的研究以展示我们 RL 算法的探索策略。

Abstract

We investigate the task of learning to follow natural language instructions by jointly reasoning with visual observations and language inp

learning natural language instructions visual observations policy optimization algorithm reinforcement learning

发现论文，激发创造

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

基于语言条件的语义搜索导向的机器人操作任务策略

我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。

Dec, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

基于强化学习的不确定性下自然语言生成规划

本研究提出了一种新的基于统计规划的自然语言生成模型，它能够在存在噪声反馈的情况下（例如用户和实现器的当前生成上下文），有效地解决常见的自然语言生成问题，包括信息展示、语句长度和信息传递量等方面的折衷问题。我们采用强化学习方法训练该模型，并将其性能与先前工作中的基准性能进行了比较，结果表明，该模型的性能明显优于所有基线模型。

Jun, 2016

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019