ICCVSep, 2021

使用语言和手势的具身化参考理解

TL;DR本文介绍了 YouRefIt,这是一个以多模态引用为基础的数据集,集合了 432 个室内场景中 4195 个唯一的引用片段,并介绍了两种基准图像和视频的多模态引用理解方法。实验提供了关于如何理解参考表达和手势对物理情境引用的重要证据。