远程视觉基础场景直观智能体

CVPRMar, 2021

Scene-Intuitive Agent for Remote Embodied Visual Grounding

Xiangru Lin, Guanbin Li, Yizhou Yu

TL;DR本文提出了一个能够模拟人类行为的代理程序，旨在解决 REVERIE 任务，通过两个交叉模态对齐子任务的预训练阶段，即场景定位任务和对象定位任务，再结合记忆增强注意力动作解码器来生成行动序列，证明了本方法的有效性。

Abstract

Humans learn from life events to form intuitions towards the understanding of visual environments and languages. Envision that you are instructed by a high-level instruction, "Go to the bathroom in the master bed

visual environments languages agent reverie training pipeline

发现论文，激发创造

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

聊天中的三月：用于远程身体引用表达的交互提示

这篇论文提出了一种名为 March-in-Chat (MiC) 的模型，可以与大型语言模型进行交互，并基于一种新提出的会考虑房间和物体的感知模型（ROASP）进行动态规划，为 REVERIE 基准测试中的 SPL 和 RGSPL 指标提供了比以往最优模型更好的性能。

Aug, 2023

基于布局感知的梦想家用于具身指代表达理解

本文研究 “身体化指称表达接地” 问题，设计出一种自主学习的导航机器人来遍历未知环境，探索被简明自然语言描述的目标位置，并取得了比现有最优解更优的结果。

Nov, 2022

增强型常识知识用于远程物体定位

通过引入增强型常识知识模型 (ACK)，利用常识信息的时空知识图，增强代理导航，通过知识图感知跨模态和概念聚合模块来提升可视化表示和可视化文本数据对齐，同时引入基于常识的决策过程，实现更准确的本地动作预测。

Jun, 2024

RREx-BoT：用技巧袋处理远程代指表达式

该研究揭示家庭机器人在执行长期任务时通过使用三维编码和视觉语言模型可实现客观目标定位；通过实证研究，该研究表明该方法优于以往的同类工作并适用于实际机器人平台。

Jan, 2023

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

基于辅助人工智能消除歧义的视觉定位实现虚实转移

本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架，该方法通过训练每个模块来独立解析实体、属性和空间关系，并结合领域自适应技术解决常见问题。实验表明，该框架与 Sim-To-Real 实现的视觉识别方法相结合，能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。

May, 2022

自我对话交互式强化学习的物体定位

本文介绍了一个交互式培训方法，以改进自然语言对话系统的视觉基础任务。培训过程中，共同的奖励函数引导着两个代理逐渐适应并合作完成任务，同时，该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题，但我们提出使用奖励工程来提高生成对话的可解释性。此外，该研究结果表明评估目标为视觉对话任务时，需要比任务成功率更有语义相关性的评估标准。

Dec, 2017

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

基于感知的空间推理的表示学习

本文提出了一个在模拟环境中进行空间推理的模型，使用强化学习和广义值迭代方法进行训练，取得了目标定位误差减少 45% 的成果。模型以指令文本为引导，学习世界的表示，对语言和环境进行联合推理，实现了本地邻域与对应词汇的精准对齐，同时处理指令中的全局参照。

Jul, 2017