基于布局感知的梦想家用于具身指代表达理解

Nov, 2022

基于布局感知的梦想家用于具身指代表达理解

Layout-aware Dreamer for Embodied Referring Expression Grounding

Mingxiao Li, Zehao Wang, Tinne Tuytelaars, Marie-Francine Moens

TL;DR本文研究 “身体化指称表达接地” 问题，设计出一种自主学习的导航机器人来遍历未知环境，探索被简明自然语言描述的目标位置，并取得了比现有最优解更优的结果。

Abstract

In this work, we study the problem of Embodied Referring Expression Grounding, where an agent needs to navigate in a previously unseen environment and localize a remote object described by a concise high-level natural language instruction. When facing such a situation, a human tends to imagine what the destination may look like and to explore the environment

embodied referring expression grounding autonomous agent environment exploration layout learner goal dreamer

发现论文，激发创造

远程视觉基础场景直观智能体

本文提出了一个能够模拟人类行为的代理程序，旨在解决 REVERIE 任务，通过两个交叉模态对齐子任务的预训练阶段，即场景定位任务和对象定位任务，再结合记忆增强注意力动作解码器来生成行动序列，证明了本方法的有效性。

Mar, 2021

聊天中的三月：用于远程身体引用表达的交互提示

这篇论文提出了一种名为 March-in-Chat (MiC) 的模型，可以与大型语言模型进行交互，并基于一种新提出的会考虑房间和物体的感知模型（ROASP）进行动态规划，为 REVERIE 基准测试中的 SPL 和 RGSPL 指标提供了比以往最优模型更好的性能。

Aug, 2023

Pathdreamer：室内导航的世界模型

Pathdreamer 是一种可视化世界模型，用于不擅长室内导航的计算机代理的高效导航。它可以生成大量高分辨率的可视化内容，通过使用在先前视觉观察中获取的知识，用于新颖的室内环境中。并且 Pathdreamer 在高度不确定的区域可以预测多样的情况，通过可靠的决策加快代理人的速度。

May, 2021

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

RREx-BoT：用技巧袋处理远程代指表达式

该研究揭示家庭机器人在执行长期任务时通过使用三维编码和视觉语言模型可实现客观目标定位；通过实证研究，该研究表明该方法优于以往的同类工作并适用于实际机器人平台。

Jan, 2023

基于感知的空间推理的表示学习

本文提出了一个在模拟环境中进行空间推理的模型，使用强化学习和广义值迭代方法进行训练，取得了目标定位误差减少 45% 的成果。模型以指令文本为引导，学习世界的表示，对语言和环境进行联合推理，实现了本地邻域与对应词汇的精准对齐，同时处理指令中的全局参照。

Jul, 2017

视觉房间重组

一项围绕着域中物理实体与环境互动的任务 - 室内重新配置的新数据集 RoomR 并结合实验展示现有的 Embodied AI 技术在此类任务方面性能仍有提升空间。

Mar, 2021

人机交互中基于交互式视觉引导还原表达式

本文介绍了 INGRESS，它是一个机器人系统，能够按照自然语言指示拾取和放置日常物品，并使用神经网络模型的两个阶段来进行对象引用和消岐。

Jun, 2018

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

Space - 语言模型用于 3D 视觉基础

提出了一种空间语言模型用于 3D 视觉定位问题，使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测，能够在 ReferIt3D 提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021