EPIC-KITCHENS VISOR Benchmark：视频分割和物体关系

Sep, 2022

EPIC-KITCHENS VISOR Benchmark：视频分割和物体关系

EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations

Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar...

TL;DR本文介绍了 VISOR 数据集，它是一个像素注释的新数据集，也是用于在自我中心视频中分割手和活动对象的基准套件。VISOR 主要应对了从 EPIC-KITCHENS 视频中的新挑战，并引入了一个 AI 动力注释流程，以获得像素级注释的一致性。该数据集总共公开了 272K 带标注的语义掩模，9.9M 插值稠密掩模，67K 手 - 物体关系，并涵盖 36 小时的 179 个未修剪的视频。此外，我们还介绍了三项有关视频对象分割，交互理解和长期推理的挑战。

Abstract

We introduce VISOR, a new dataset of pixel annotations and a benchmark suite for segmenting hands and active objects in egocentric video. VISOR annotates videos from EPIC-KITCHENS, which comes with a new set of challenges not encountered in current video segmentation datasets. Specific

visor dataset hand and active object segmentation egocentric video pixel-level annotations ai-powered annotation pipeline

发现论文，激发创造

I2R-VI-FF 技术报告：EPIC-KITCHENS VISOR 手部物体分割挑战 2023

通过结合点渲染和任意物体模型以及应用特定的手工制约条件来增强手部和物体分割结果，在基线模型缺失检测的情况下重新训练物体检测器来提高检测准确性，从而在 VISOR HOS 挑战赛的评估标准中获得第一名。

Oct, 2023

扩展自我视觉：EPIC-KITCHENS 数据集

本文介绍了 EPIC-KITCHENS 数据库，它是一个大规模的第一人称视角视频数据库，其中包含了来自 32 个参与者的 55 小时视频，多样性与大规模性深度融合，视频被密集标记为总共 39.6K 个动作段和 454.3K 个物体边界框，并且注释与真实意图紧密相关，该数据库可用于第一人称视角视频领域的挑战评估和研究。

Apr, 2018

EPIC-KITCHENS 数据集：收集、挑战和基准

本文介绍了 EPIC-KITCHENS 数据集的构建，该数据集具有大规模、种类多样的人们在厨房的日常行为记录，并且由多名来自不同国籍的参与者拍摄，其中所有视频都进行了密集注释和真实意图的讲述，并使用了多模态建模等基础线和新基础线进行了评估。

Apr, 2020

重塑自我中心视角

本文介绍了拓展视角中最大数据集 EPIC-KITCHENS 的一种方法，推出了 EPIC-KITCHENS-100，其中使用头戴式相机记录了 45 个环境中长期非剧本活动的 100 小时、2000 万帧、90,000 个动作，在 fine-grained actions、action detection、action recognition、unsupervised domain adaptation、cross-modal retrieval 等领域提供了新的挑战与评估。

Jun, 2020

遮挡视频实例分割：基准

我们收集了一个大规模的被遮挡的视频实例分割数据集，即检测，在遮挡场景中同时分割和跟踪实例，实验表明，现有的视频理解系统无法理解这些被遮挡的实例，我们还提出了一个简单的插件模块，用于补充遮挡引起的缺失对象线索，建立在 MaskTrack R-CNN 和 SipMask 上，在 OVIS 数据集上取得了显着的 AP 提升。

Feb, 2021

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为 OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS 可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的 VLM 预测其对应的类别，其次通过提议后处理方法更好地适应预训练的 VLMs，以避免扭曲和不自然的提议输入。

May, 2023

开放式视频实例分割

本文提出了开放词汇视频实例分割这一新颖任务，在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明，该方法能够有效地处理实际中从未见过的新类别，并且提供了数据集和代码以促进未来的研究。

Apr, 2023

视频目标实例遮挡分割：数据集与 ICCV 2021 挑战赛

该研究介绍了一种针对视频中不同程度遮挡物的识别方法，其中包括了一个大规模的数据集，这个数据集包括 296k 个高质量实例遮罩和 901 个遮挡场景。在这个数据集上，所有基线方法都遇到了重大的性能下降约 80％的问题，从而证明了系统仍然有很长的路要走才能真正理解受遮挡的对象和视频。

Nov, 2021

野外交互式视频对象分割

本文介绍一种基于人工交互的视频对象分割方法，使用深度学习技术进行交互式图像分割，并应用于视频对象分割中。在 GrabCut 数据集上，我们的方法以仅需 3.8 次点击的平均值获得 90％的 IOU，与当前最先进的方法相比，具有更高的准确性。此外，我们研究了用户的使用模式和提供的纠正类型等，为进一步改进交互式视频分割提供重要的见解。

Dec, 2017

EPIC Fields: 结合 3D 几何和视频理解

介绍了一个名为 EPIC Fields 的神经渲染数据集，能够通过附加 3D 相机信息，为图像和视频理解提供更好的数据和基准，同时提供了两个神经渲染和分割动态对象的基准任务。

Jun, 2023