具身视觉识别

Apr, 2019

Embodied Visual Recognition

Jianwei Yang, Zhile Ren, Mingze Xu, Xinlei Chen, David Crandall...

TL;DR本文提出了一种名为 “Embodied Visual Recognition” 的任务，其中代理可以在三维环境中移动以对被遮挡的目标物体进行识别、定位和分割，研究结果表明，具有移动能力的代理比被动代理的视觉识别性能更好，代理可以学习不同于最短路径的策略移动路径来提高视觉识别能力。

Abstract

Passive visual systems typically fail to recognize objects in the amodal setting where they are heavily occluded. In contrast, humans and other embodied agents have the ability to move in the environment, and actively control the viewing angle to better understand object shapes and semantics. In this work, we introduce the task of →

embodied visual recognition occlusion object classification amodal object segmentation embodied mask r-cnn

发现论文，激发创造

面向语义分割的视觉活动学习

本文研究了具体化视觉主动学习任务，该任务通过选择性的视野请求注释来探索三维环境，以获取场景理解，我们通过开发一系列智能体来研究具体化视觉主动学习，其中智能体配备语义分割网络，并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求，得到了可靠的结果。

Dec, 2020

具身视觉导航的深度学习：一项综述

综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域，着重介绍了在这一领域内的各种高级技能，例如：感知局部观察视觉输入，理解跨模态的指令等等，并探讨了未来的研究方向及挑战。

Jul, 2021

证据型主动识别：智能谨慎的开放世界具身化感知

为了解决识别模块对于意外输入的处理能力不足的问题，我们将主动识别视为一种按步骤的证据收集过程，在证据组合理论的指导下提供逐步的不确定性量化和可靠的预测。此外，本文提出的奖励函数有效地表征了在开放环境中操作时行动的价值，并通过一系列识别和鲁棒性分析的实验，演示了引入不确定性到主动识别以及所提方法的出色性能。

Nov, 2023

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

基于自由能原理的具身化系统的感觉运动视知觉

提出了一种基于自由能原理的具有实体系统的模型，其包括身体和注意力模型，并以 MNIST 数据集为例刻画了注意力模型的推理过程。

Jun, 2020

在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，然而在真实世界场景中一个图像可能没有提供良好的视角，从而限制了对细粒度场景的理解。为了克服这一限制，我们提出了一项名为 “实体说明” 的新任务，将视觉说明模型与导航能力相结合，使其能够主动探索场景，并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集，以支持该任务。我们提出了一个级联实体说明模型（CaBOT），它由导航器和说明器组成，用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。

Aug, 2023

远程视觉基础场景直观智能体

本文提出了一个能够模拟人类行为的代理程序，旨在解决 REVERIE 任务，通过两个交叉模态对齐子任务的预训练阶段，即场景定位任务和对象定位任务，再结合记忆增强注意力动作解码器来生成行动序列，证明了本方法的有效性。

Mar, 2021

行动之前先展望：通过预测运动效果进行端到端主动识别

通过训练循环神经网络模型的运动策略，结合学习预测代理在移动中对环境的影响，我们成功实现了主动学习视觉识别，并提高了识别性能。

Apr, 2016

利用增强学习实现遮挡情况下操纵物体的主动视觉学习

该研究探讨了人工智能代理在存在物体干扰的情况下，学习协同控制夹持器和相机，以强化学习策略来完成目标。其中，手 / 眼控制器通过物体中心化注意力结构进行处理，学习如何移动相机来保证物体始终在视野内，并与夹持器协同完成任务。此外，环境难度的课程设计，对最终的动态视野 / 夹持策略影响显著。实验结果表明，该方法在多样化的杂乱环境中胜过静态相机设置。

Nov, 2018

视觉语境能否提高具有体现特征的智能体自动语音识别的性能？

本文介绍了一种利用视觉信息，通过新的解码器偏置技术将机器人的语音识别能力改进来识别含有可见实体描述的口语，以提高自动语音识别系统在机器人上的鲁棒性能，并取得了 %59 的相对错误率降低。

Oct, 2022