具身视觉识别
本文研究了具体化视觉主动学习任务,该任务通过选择性的视野请求注释来探索三维环境,以获取场景理解,我们通过开发一系列智能体来研究具体化视觉主动学习,其中智能体配备语义分割网络,并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求,得到了可靠的结果。
Dec, 2020
综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域,着重介绍了在这一领域内的各种高级技能,例如:感知局部观察视觉输入,理解跨模态的指令等等,并探讨了未来的研究方向及挑战。
Jul, 2021
为了解决识别模块对于意外输入的处理能力不足的问题,我们将主动识别视为一种按步骤的证据收集过程,在证据组合理论的指导下提供逐步的不确定性量化和可靠的预测。此外,本文提出的奖励函数有效地表征了在开放环境中操作时行动的价值,并通过一系列识别和鲁棒性分析的实验,演示了引入不确定性到主动识别以及所提方法的出色性能。
Nov, 2023
本文提出了一个包含自然语言描述复杂机器人任务的数据集,以期提高机器人与人类之间的互动能力,在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航,以及指涉表达模型来验证这项新任务的难度,但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有很大的改进空间。
Apr, 2019
当前的视觉说明模型假设图像是完整呈现场景的完美捕捉,然而在真实世界场景中一个图像可能没有提供良好的视角,从而限制了对细粒度场景的理解。为了克服这一限制,我们提出了一项名为 “实体说明” 的新任务,将视觉说明模型与导航能力相结合,使其能够主动探索场景,并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集,以支持该任务。我们提出了一个级联实体说明模型(CaBOT),它由导航器和说明器组成,用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。
Aug, 2023
本文提出了一个能够模拟人类行为的代理程序,旨在解决 REVERIE 任务,通过两个交叉模态对齐子任务的预训练阶段,即场景定位任务和对象定位任务,再结合记忆增强注意力动作解码器来生成行动序列,证明了本方法的有效性。
Mar, 2021
该研究探讨了人工智能代理在存在物体干扰的情况下,学习协同控制夹持器和相机,以强化学习策略来完成目标。其中,手 / 眼控制器通过物体中心化注意力结构进行处理,学习如何移动相机来保证物体始终在视野内,并与夹持器协同完成任务。此外,环境难度的课程设计,对最终的动态视野 / 夹持策略影响显著。实验结果表明,该方法在多样化的杂乱环境中胜过静态相机设置。
Nov, 2018
本文介绍了一种利用视觉信息,通过新的解码器偏置技术将机器人的语音识别能力改进来识别含有可见实体描述的口语,以提高自动语音识别系统在机器人上的鲁棒性能,并取得了 %59 的相对错误率降低。
Oct, 2022