Aug, 2023

开启自我中心行动的词汇

TL;DR本文提出了一种新颖的开放词汇动作识别任务,在训练期间观察到的动词和物体的基础上,通过一个与物体无关的动词编码器和一个基于提示的物体编码器来将动词和物体预测分离,借助 CLIP 表示来预测一组相互作用的对象的开放词汇。在 EPIC-KITCHENS-100 和 Assembly101 数据集上创建了开放词汇基准,而闭合动作方法无法泛化,我们提出的方法非常有效。此外,我们的物体编码器在识别新的相互作用物体方面显著优于现有的开放词汇视觉识别方法。