在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

ICCVAug, 2023

在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

Explore and Tell: Embodied Visual Captioning in 3D Environments

Anwen Hu, Shizhe Chen, Liang Zhang, Qin Jin

TL;DR当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，然而在真实世界场景中一个图像可能没有提供良好的视角，从而限制了对细粒度场景的理解。为了克服这一限制，我们提出了一项名为 “实体说明” 的新任务，将视觉说明模型与导航能力相结合，使其能够主动探索场景，并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集，以支持该任务。我们提出了一个级联实体说明模型（CaBOT），它由导航器和说明器组成，用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。

Abstract

While current visual captioning models have achieved impressive performance, they often assume that the image is well-captured and provides a complete view of the scene. In real-world scenarios, however, a single image may not offer a good viewpoint, hindering fine-grained

visual captioning models embodied captioning scene understanding navigation capabilities cabot

发现论文，激发创造

面向语义分割的视觉活动学习

本文研究了具体化视觉主动学习任务，该任务通过选择性的视野请求注释来探索三维环境，以获取场景理解，我们通过开发一系列智能体来研究具体化视觉主动学习，其中智能体配备语义分割网络，并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求，得到了可靠的结果。

Dec, 2020

具身视觉导航的深度学习：一项综述

综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域，着重介绍了在这一领域内的各种高级技能，例如：感知局部观察视觉输入，理解跨模态的指令等等，并探讨了未来的研究方向及挑战。

Jul, 2021

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021

从网络上图像文本对入手，提升视觉语言导航能力

本文提出了 VLN-BERT 模型，使用从网页中收集的图像 - 文本对进行预训练，将其与具有相似领域的含路径语言训练数据相结合，取得了 4 个百分点的成功率提升，并得出每个阶段都非常有效，结合后具有更进一步的协同作用。

Apr, 2020

具有融入字幕的可自解释性可行动性学习

通过将可视管理学习和自我解释能力相结合，本研究提出了一种新的模型，能够有效地解决行为模糊性问题，并通过实验验证了其有效性。

Apr, 2024

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

具有点云感知的逼真环境中的体育问答

在 Matterport 3D 等实景环境中，通过实例化大规模导航任务，我们研究了利用 3D 点云或 RGB 图像或它们的组合进行导航的方法，发现前进或随机这两种相对简单的导航方法强且难以超越，同时点云对于学习避免障碍提供了更丰富的信号。我们发现一种称为变曲点权重技术对于用于行为克隆的循环模型训练导航非常重要，并且能够使用此技术胜过基线。这一结果为继续研究基于 3D 深度学习模型的体式导航提供了动力。

Apr, 2019

体验式视觉探索的探讨

本研究探讨了具有摄像机配备的机器人在新颖，非结构化环境中的感知问题，特别是如何进行视觉探索问题，提出了现有视觉探索算法的分类法并创建了一个标准框架进行基准测试。在两个超现实的 3D 环境和多种评估指标下，通过对四种状态下最先进的模式进行彻底的实证研究，为视觉探索领域提供了新的性能指标和基准。

Jan, 2020