Aug, 2023

RefEgo: 第一人称自我感知的指称表达理解数据集

TL;DR从第一人称视角将文本表达与场景对象联系起来是开发具有环境意识并按照直观的文字指令行动的代理人的一项真正具有挑战性的能力。本文基于Ego4D的第一人称视频构建了广泛的基于视频的引用表达理解数据集:RefEgo,其中包括超过12k个视频剪辑和41小时的视频引用表达理解批注。通过将最先进的2D引用表达理解模型与对象跟踪算法相结合,我们实现了视频中对象的跟踪,即使在困难条件下:视频中的所指对象在视频中间变得超出视野或者视频中出现多个相似对象。