REVERIE: 远程实体视觉室内指称表达

Apr, 2019

REVERIE: 远程实体视觉室内指称表达

REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

Yuankai Qi, Qi Wu, Peter Anderson, Xin Wang, William Yang Wang...

TL;DR本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Abstract

One of the long-term challenges of robotics is to enable robots to interact with humans in the visual world via natural language, as human

robotics natural language visual world dataset navigation

发现论文，激发创造

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

远程视觉基础场景直观智能体

本文提出了一个能够模拟人类行为的代理程序，旨在解决 REVERIE 任务，通过两个交叉模态对齐子任务的预训练阶段，即场景定位任务和对象定位任务，再结合记忆增强注意力动作解码器来生成行动序列，证明了本方法的有效性。

Mar, 2021

RREx-BoT：用技巧袋处理远程代指表达式

该研究揭示家庭机器人在执行长期任务时通过使用三维编码和视觉语言模型可实现客观目标定位；通过实证研究，该研究表明该方法优于以往的同类工作并适用于实际机器人平台。

Jan, 2023

聊天中的三月：用于远程身体引用表达的交互提示

这篇论文提出了一种名为 March-in-Chat (MiC) 的模型，可以与大型语言模型进行交互，并基于一种新提出的会考虑房间和物体的感知模型（ROASP）进行动态规划，为 REVERIE 基准测试中的 SPL 和 RGSPL 指标提供了比以往最优模型更好的性能。

Aug, 2023

自然语言视觉推理

本论文提出了一个自然语言视觉推理的任务，通过图片和描述语句的配对，预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。

Oct, 2017

视觉和对话导航

提出了 Cooperative Vision-and-Dialog Navigation 数据集，定义了 Navigation from Dialog History 任务，使用序列到序列模型解决人机对话中机器人导航的问题，并进一步证明历史对话越长，性能越好。

Jul, 2019

实时对话机器人的交互语言

该研究提出了一个框架，用于在现实世界中建立交互式、实时的、自然语言指导的机器人，并开源相关资产 (数据集、环境、基准和策略)。

Oct, 2022

人机交互中基于交互式视觉引导还原表达式

本文介绍了 INGRESS，它是一个机器人系统，能够按照自然语言指示拾取和放置日常物品，并使用神经网络模型的两个阶段来进行对象引用和消岐。

Jun, 2018

在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，然而在真实世界场景中一个图像可能没有提供良好的视角，从而限制了对细粒度场景的理解。为了克服这一限制，我们提出了一项名为 “实体说明” 的新任务，将视觉说明模型与导航能力相结合，使其能够主动探索场景，并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集，以支持该任务。我们提出了一个级联实体说明模型（CaBOT），它由导航器和说明器组成，用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。

Aug, 2023

带上下文的自然语言查询的机器人目标检索

我们开发了一种基于机器学习的模型，使机器人能够根据物体的用途检索物体，而不是仅针对特定的物体类型或视觉属性，从而实现了高级概念的预测和自然语言命令的推广。

Jun, 2020