EPIC-KITCHENS 数据集:收集、挑战和基准
本文介绍了 EPIC-KITCHENS 数据库,它是一个大规模的第一人称视角视频数据库,其中包含了来自 32 个参与者的 55 小时视频,多样性与大规模性深度融合,视频被密集标记为总共 39.6K 个动作段和 454.3K 个物体边界框,并且注释与真实意图紧密相关,该数据库可用于第一人称视角视频领域的挑战评估和研究。
Apr, 2018
本文介绍了拓展视角中最大数据集 EPIC-KITCHENS 的一种方法,推出了 EPIC-KITCHENS-100,其中使用头戴式相机记录了 45 个环境中长期非剧本活动的 100 小时、2000 万帧、90,000 个动作,在 fine-grained actions、action detection、action recognition、unsupervised domain adaptation、cross-modal retrieval 等领域提供了新的挑战与评估。
Jun, 2020
本文介绍了基于 EPIC-Kitchens 数据集的行动识别模型,比较了不同模型在具有长尾类分布、测试集中未见过环境和多任务等挑战下的表现,并探讨了模型的缺点和未来研究的方向。
Aug, 2019
本研究介绍了一种针对 2021 EPIC-KITCHENS-100 竞赛中的自我中心视频动作检测方法,其主要采用滑动窗口策略生成建议,以较高的效率提高任务的检测性能。通过简单地采用这些策略,我们使用单个模型在测试集上达到了 16.10%的性能,相对于基线方法平均 mAP 提高了 11.7%。
Jun, 2021
本文介绍了 VISOR 数据集,它是一个像素注释的新数据集,也是用于在自我中心视频中分割手和活动对象的基准套件。VISOR 主要应对了从 EPIC-KITCHENS 视频中的新挑战,并引入了一个 AI 动力注释流程,以获得像素级注释的一致性。该数据集总共公开了 272K 带标注的语义掩模,9.9M 插值稠密掩模,67K 手 - 物体关系,并涵盖 36 小时的 179 个未修剪的视频。此外,我们还介绍了三项有关视频对象分割,交互理解和长期推理的挑战。
Sep, 2022
介绍了一个名为 EPIC Fields 的神经渲染数据集,能够通过附加 3D 相机信息,为图像和视频理解提供更好的数据和基准,同时提供了两个神经渲染和分割动态对象的基准任务。
Jun, 2023
本文提出了一种新颖的开放词汇动作识别任务,在训练期间观察到的动词和物体的基础上,通过一个与物体无关的动词编码器和一个基于提示的物体编码器来将动词和物体预测分离,借助 CLIP 表示来预测一组相互作用的对象的开放词汇。在 EPIC-KITCHENS-100 和 Assembly101 数据集上创建了开放词汇基准,而闭合动作方法无法泛化,我们提出的方法非常有效。此外,我们的物体编码器在识别新的相互作用物体方面显著优于现有的开放词汇视觉识别方法。
Aug, 2023
本文介绍了 EPIC-SOUNDS 数据集,该数据集包含 78.4k 个用于声音事件和行动识别的类别化段,以及 39.2k 个非类别化段。通过构建注释流程,该数据集具有时间标签和类标签,允许我们训练和评估两种状态最佳的音频识别模型,突出了仅音频标签的重要性以及当前模型识别声音行动的局限性。
Feb, 2023
本文通过将 few-shot generalization 和 zero-shot generalization 相结合,并在传统的直接对齐基线上添加度量学习损失,探索了面向 open-set 分类的通用化方法,并在基于 EPIC-KITCHENS 数据集的新分裂的基础上进行了评估,结果表明这种方法可以提高零样本分类的准确性高达 10%,同时不损失 few-shot 性能。
May, 2020
本研究介绍了在 EPIC-Kitchens 物体检测挑战赛中,通过填充和混合数据等方法,提高了所提出方法的鲁棒性。运用 GRE-FPN、Hard IoU-imbalance Sampler 等技术提取更具代表性的全局物体特征,通过类平衡采样解决类别不平衡问题。进一步采用了随机加权平均和多尺度测试策略。实验结果表明,所提出的方法在 EPIC-Kitchens 的见和未见数据集上均显著提高了平均精度。
Jun, 2020