Dec, 2023

动作场景图:针对自视角视频的长篇理解

TL;DR我们提出了Egocentric Action Scene Graphs (EASGs),一种用于理解视角视频的长篇形式的新表示。通过提供相机佩戴者执行的动作、互动对象及其关系以及动作在时间上的展现的时间演变基于图的描述,EASGs扩展了egocentric视频的标准手动注释表示。通过一种新的注释过程,我们通过添加手动标注的Egocentric Action Scene Graphs扩展了Ego4D数据集,为长篇理解的egocentric视频提供了丰富的注释。因此,我们定义了EASG生成任务并提供了一种基准方法,建立了初步的基准。针对两个下游任务(egocentric action anticipation和egocentric activity summarization)的实验突出了EASGs在长篇egocentric视频理解方面的有效性。我们将发布数据集和代码以复现实验和注释。