Sep, 2022

EPIC-KITCHENS VISOR Benchmark:视频分割和物体关系

TL;DR本文介绍了 VISOR 数据集,它是一个像素注释的新数据集,也是用于在自我中心视频中分割手和活动对象的基准套件。VISOR 主要应对了从 EPIC-KITCHENS 视频中的新挑战,并引入了一个 AI 动力注释流程,以获得像素级注释的一致性。该数据集总共公开了 272K 带标注的语义掩模,9.9M 插值稠密掩模,67K 手 - 物体关系,并涵盖 36 小时的 179 个未修剪的视频。此外,我们还介绍了三项有关视频对象分割,交互理解和长期推理的挑战。