使用语言和手势的具身化参考理解

ICCVSep, 2021

使用语言和手势的具身化参考理解

YouRefIt: Embodied Reference Understanding with Language and Gesture

Yixin Chen, Qing Li, Deqian Kong, Yik Lun Kei, Song-Chun Zhu...

TL;DR本文介绍了 YouRefIt，这是一个以多模态引用为基础的数据集，集合了 432 个室内场景中 4195 个唯一的引用片段，并介绍了两种基准图像和视频的多模态引用理解方法。实验提供了关于如何理解参考表达和手势对物理情境引用的重要证据。

Abstract

We study the understanding of embodied reference: One agent uses both language and gesture to refer to an object to another agent in a shared physical environment. Of note, this new visual task requires understan

embodied reference yourefit multimodal cues physical environment gestural cues

发现论文，激发创造

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

通过视角旋转和关系推理进行空间和视觉角度参考的实体引用理解

通过构建基于 3D 体验的坐标系、转化接收者的位置与方向，以及模拟语言、姿势、视觉和空间位置的多元合作推理，本研究提出了一种 REP 方法来解决在共享的物理环境中，基于语言和手势指引接收者定位目标物体的视角和空间问题。实验结果表明 REP 方法在 YouRefIt 上的准确率相对其他现有算法提高了 5.22%。

Sep, 2023

视频中的对象指称：基于语言和人类凝视

本研究提出了一种利用视频中物体的运动特征、人眼注视和时空语境等信息进行对象指称的新型神经网络模型，并使用一个包含 30,000 个对象的测试数据集验证了该模型的有效性。

Jan, 2018

RefEgo: 第一人称自我感知的指称表达理解数据集

从第一人称视角将文本表达与场景对象联系起来是开发具有环境意识并按照直观的文字指令行动的代理人的一项真正具有挑战性的能力。本文基于 Ego4D 的第一人称视频构建了广泛的基于视频的引用表达理解数据集：RefEgo，其中包括超过 12k 个视频剪辑和 41 小时的视频引用表达理解批注。通过将最先进的 2D 引用表达理解模型与对象跟踪算法相结合，我们实现了视频中对象的跟踪，即使在困难条件下：视频中的所指对象在视频中间变得超出视野或者视频中出现多个相似对象。

Aug, 2023

远程视觉基础场景直观智能体

本文提出了一个能够模拟人类行为的代理程序，旨在解决 REVERIE 任务，通过两个交叉模态对齐子任务的预训练阶段，即场景定位任务和对象定位任务，再结合记忆增强注意力动作解码器来生成行动序列，证明了本方法的有效性。

Mar, 2021

将表征性手势融入自动生成的具身化解释并其对理解和交互质量的影响

通过开发一个集成了拍手手势和象征性手势的虚拟解释器来研究手势对解释的影响，发现手势无法单独或与拍手手势结合使用超越基准或仅使用拍手手势的条件在理解方面的表现，但是与先前的研究相比，具身化代理显著增强了理解。

Jun, 2024

口语中的视觉场景物体指称

本文探讨了用口语作为输入的物体指称（ORSpoken），通过介绍两个数据集和一种新的方法来为多模式学习提供了理想的数据集，并在相应的层次引入任务特定的视觉语言交互，实验表明我们的方法在减轻背景噪声方面具有很好的效果。

Nov, 2017

人机交互中基于交互式视觉引导还原表达式

本文介绍了 INGRESS，它是一个机器人系统，能够按照自然语言指示拾取和放置日常物品，并使用神经网络模型的两个阶段来进行对象引用和消岐。

Jun, 2018

视觉指向表达识别：系统实际学习了什么？

本文通过对指称表达识别最先进系统的经验分析来探究这些系统处理语言和视觉的方式，并发现这些系统可能忽略语言结构，依赖于数据选择和注释过程中引入的浅层相关性。

May, 2018

学习个体交谈手势风格

本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作，通过训练无标签视频并将我们的模型与基准方法进行量化比较，证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法，并且我们发布了一个大型的视频数据集以支持研究。

Jun, 2019