I2R-VI-FF 技术报告:EPIC-KITCHENS VISOR 手部物体分割挑战 2023
本文介绍了 VISOR 数据集,它是一个像素注释的新数据集,也是用于在自我中心视频中分割手和活动对象的基准套件。VISOR 主要应对了从 EPIC-KITCHENS 视频中的新挑战,并引入了一个 AI 动力注释流程,以获得像素级注释的一致性。该数据集总共公开了 272K 带标注的语义掩模,9.9M 插值稠密掩模,67K 手 - 物体关系,并涵盖 36 小时的 179 个未修剪的视频。此外,我们还介绍了三项有关视频对象分割,交互理解和长期推理的挑战。
Sep, 2022
本文介绍了 EPIC-KITCHENS 数据库,它是一个大规模的第一人称视角视频数据库,其中包含了来自 32 个参与者的 55 小时视频,多样性与大规模性深度融合,视频被密集标记为总共 39.6K 个动作段和 454.3K 个物体边界框,并且注释与真实意图紧密相关,该数据库可用于第一人称视角视频领域的挑战评估和研究。
Apr, 2018
通过 MEAA 的不确定性感知域适应网络,在源数据上使用非常有限的手部边界框注释,学习到了手部物体交互的特定特征,从而提高了微观场景下准确性并在无标签目标域中学习到了域不变特征,从而再精细的动作识别方面表现出最好的 top-1 动作识别准确性。
Jun, 2022
通过观察手在自然野外环境下的视频,本文致力于实现交互对象的理解,成功地应用这一基本原则于 EPIC-KITCHENS 数据集,从而纯粹通过观察手在自我中心视角的视频中学习状态敏感特征和对象特性。
Dec, 2021
本文提供了一种具有像素级细分标签的 egocentric 图像数据集,其中包含 11,243 个日常活动中与对象相互作用时人手和对象的标签数据。我们引入了上下文感知的组合数据增强技术以适应分布外的 YouTube egocentric 视频,并展示了我们坚韧的手物分割模型和数据集可以作为基础工具,促进或实现手势状态分类、视频活动识别、手物交互的 3D 网格重建,以及对 egocentric 视频中的手物前景进行视频修复。
Aug, 2022
本文研究了一种用于自主视角视频中手部分割的方法,通过使用 RefineNet 进行 fine-tune,得出了在具有挑战性的场景中更好的结果,并收集了两个新的数据集来支持实验结果。同时,本文展示了通过手部分割训练 CNN 模型可以提高手部活动识别的准确性。
Mar, 2018
本研究旨在探讨如何在自然环境中重建手 - 物互动。为此,我们提出了一个基于优化的过程,该过程不需要直接的 3D 监督,并利用所有可用的相关数据来提供 3D 重建的约束条件。我们的方法在 EPIC Kitchens 和 100 Days of Hands 数据集上跨越一系列对象类别产生了引人注目的重建效果,并在实验室的环境中与现有方法进行了比较。
Dec, 2020
本研究介绍了在 EPIC-Kitchens 物体检测挑战赛中,通过填充和混合数据等方法,提高了所提出方法的鲁棒性。运用 GRE-FPN、Hard IoU-imbalance Sampler 等技术提取更具代表性的全局物体特征,通过类平衡采样解决类别不平衡问题。进一步采用了随机加权平均和多尺度测试策略。实验结果表明,所提出的方法在 EPIC-Kitchens 的见和未见数据集上均显著提高了平均精度。
Jun, 2020
本文介绍了拓展视角中最大数据集 EPIC-KITCHENS 的一种方法,推出了 EPIC-KITCHENS-100,其中使用头戴式相机记录了 45 个环境中长期非剧本活动的 100 小时、2000 万帧、90,000 个动作,在 fine-grained actions、action detection、action recognition、unsupervised domain adaptation、cross-modal retrieval 等领域提供了新的挑战与评估。
Jun, 2020
本文介绍了 EPIC-KITCHENS 数据集的构建,该数据集具有大规模、种类多样的人们在厨房的日常行为记录,并且由多名来自不同国籍的参与者拍摄,其中所有视频都进行了密集注释和真实意图的讲述,并使用了多模态建模等基础线和新基础线进行了评估。
Apr, 2020