采用单步奖励观察的顺序指令到动作的现场映射

ACLMay, 2018

采用单步奖励观察的顺序指令到动作的现场映射

Situated Mapping of Sequential Instructions to Actions with Single-step Reward Observation

Alane Suhr, Yoav Artzi

TL;DR该研究提出了一种学习方法，用于将上下文相关的顺序指令映射到动作，并设计出 SESTRA 算法来训练最大化即刻期望奖励的模型，从而实现单步奖励观测。同时，该算法考虑到交互的历史和世界状态的影响，通过实验表明，相较于逻辑表示方法，提出的算法在 SCONE 领域中得到了 9.8%-25.3% 的绝对准确率的提升。

Abstract

We propose a learning approach for mapping context-dependent sequential instructions to actions. We address the problem of discourse and state dependencies with an attention-based model that considers both the hi

learning approach sequential instructions attention-based model sestra algorithm reward maximization

发现论文，激发创造

听、关注和行：将导航指令映射为动作序列的神经网络

提出一种神经序列到序列模型，用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比，该模型不需要专门的语言资源（例如解析器）或任务特定注释（例如种子词典），因此具有通用性，同时在基准单句数据集上取得了迄今为止最佳结果，并为有限培训多句子设定提供竞争结果。

Jun, 2015

面向任务的对话的序列到序列学习与对话状态表示

该论文提出了一种新的框架，将对话状态建模为固定大小的分布式表示，并使用注意机制查询知识库，以解决任务导向的对话系统中的问题。实验结果显示，这种框架在自动评估和人类评估上都明显优于其他基于序列到序列模型的模型。

Jun, 2018

稀疏奖励领域结构化探索的学习成就结构

提出了一种名为 SEA 的多阶段强化学习算法，用于处理内部包含成就的环境，首先使用离线数据学习已知成就的表示，然后通过启发式算法恢复学习成就的依赖关系图，并通过与该图交互来学习掌握已知成就并发掘新成就的策略，从而提高了高维度观察下的探索能力。

Apr, 2023

使用强化学习将指令和视觉观察映射到动作

本文提出了一种新的方法，通过强化学习在上下文匹配的情形下，使用奖励形状进行指导，以从视觉观测和文本输入中学习单个模型，直接将其映射到行动，从而执行指令，无需中间表示、计划程序或训练不同模型，并验证在模拟环境中的有效性。

Apr, 2017

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

通过辅助视频中的活动定位，从观察中单次学习多步任务

该研究旨在借鉴人类通过观察上下文完成一次演示学习，使用辅助视频数据和元学习技术，让机器人能够进行一次性的多步任务学习，并最终实现强化学习。通过实验证明了当提供辅助视频并将单个操作进行定位时，机器人可以更有效地学习多步任务并提高性能。

Jun, 2018

利用视觉目标预测在 3D 环境中将指令映射到动作

该研究倡导将指令执行分解为目标预测和行为生成，并介绍了一种利用 LINGUNET 将观察值映射到目标，然后生成完成目标所需的行动的模型。该模型仅通过演示进行训练，并引入了两个指令跟随基准来评估该方法：LANI 和 CHAI。我们的评估证明了我们的模型分解的优势，并阐明了我们的新基准所提出的挑战。

Sep, 2018

高时间分辨率行动识别序列建模

本文介绍了一个新数据集 StrokeRehab，旨在解决机器学习中的一个重要问题，即从视频和运动数据中识别出细微的运动，提出了一种以语音识别技术为灵感的基于序列到序列模型的高分辨率动作识别方法，并在 StrokeRehab 数据集以及标准测试数据集 50Salads，Breakfast 和 Jigsaws 上取得了当前最优的结果。

Nov, 2021

序贯行为引发的不变表示在强化学习中的应用

通过序列动作导致不变表示法（SAR）方法，针对具有视觉干扰的高维观测中准确学习与任务相关的状态表示的问题，本文提出了一种能抵抗干扰的表示学习方法，通过编码器优化学习从而仅保留顺序动作控制信号后的组件，使得智能体能够学习到鲁棒的表示形式，并在实验中展示了该方法在对抗干扰任务和真实世界自动驾驶场景中的有效性。

Sep, 2023

通过随机奖励估计的半监督对话策略学习

本文提出了用于半监督策略学习的新型奖励学习方法，该方法借助动态模型来计算奖励值，并结合动作嵌入进行奖励函数的泛化，从而优于其他竞争性策略学习基线，适用于任务导向型对话系统。

May, 2020