InternVideo-Ego4D: Ego4D 挑战的优胜解决方案包

ECCVNov, 2022

InternVideo-Ego4D: Ego4D 挑战的优胜解决方案包

InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges

Guo Chen, Sen Xing, Zhe Chen, Yi Wang, Kunchang Li...

TL;DR本文使用 InternVideo 模型在 Ego4D 的 5 个任务中取得了优异的表现，包括 Moment Queries、Natural Language Queries、预测未来的手部动作、目标检测和短期目标交互预测。该模型适用于下游的自我中心视频理解任务，性能显著优于基线方法和 CVPR2022 的冠军，表现出其强大的表示能力。

Abstract

In this report, we present our champion solutions to five tracks at ego4d challenge. We leverage our developed internvideo, a video foundation model, for five →

ego4d internvideo video understanding object detection anticipation

发现论文，激发创造

EgoVideo: 探索自我中心的基础模型和下游适应

本研究报告介绍了我们在 CVPR 2024 年的 EgoVis 挑战中的解决方案，包括 Ego4D 挑战中的五个赛道和 EPIC-Kitchens 挑战中的三个赛道。我们基于视频语言双塔模型，并利用我们精心组织的自我中心视频数据，推出了一种新颖的基础模型 EgoVideo，该模型专门针对自我中心视频的独特特点进行设计，并为我们的竞赛提交提供了强大支持。通过将 EgoVideo 适应到这些多样化任务中，展示了它在不同自我中心视频分析场景中的多功能性和有效性，展示了 EgoVideo 作为自我中心基础模型的强大表示能力。

Jun, 2024

探索基于 Anchor 的自我 4D 自然语言查询检测

本文提供 CVPR 2022 中 Ego4D 自然语言查询挑战的技术报告，针对当前自然语言查询任务使用第三人称视角数据集，未涉及目前使用第一人称视角数据集（例如 Ego4D）面临的较小时间跨度和更复杂的视频理解问题，论文提出解决这些问题的方案。

Aug, 2022

2022 年 Ego4D 挑战赛中心自我视角视频任务翻译

本技术报告介绍了 Ego4D 挑战中对一组自我中心视频任务的关系进行探索的 EgoTask 翻译方法。我们提出利用已开发用于其他相关任务的现有模型，并设计一个任务翻译器，学习将辅助任务特征 “翻译” 为主要任务，以提高其性能。在没有对基线架构进行任何修改的情况下，我们提出的方法在两个 Ego4D 挑战赛中取得了竞争性的表现，在 “和我说话” 挑战中排名第一，在 PNR 关键帧定位挑战中排名第三。

Feb, 2023

Ego4D: 3000 小时的自我中心视频环游世界

介绍了规模巨大的 “Ego4D” 自我中心视频数据集及其基准套件，它提供了来自全球 74 个地点和 9 个不同国家的 931 个独特摄像头佩戴者的 3,670 小时日常活动视频。该数据集的采集过程严格遵守隐私和伦理标准，并具有鲁棒的去识别程序。其中的一部分视频配有音频、环境的 3D 网格、注视点、立体声和 / 或来自多个自我中心摄像头的同步视频，提供了关于自我中心视觉体验的新的基准挑战。通过公开分享这个海量的注释数据集和基准测试套件，我们旨在推动第一人称感知的前沿。

Oct, 2021

2023 年 GroundNLQ@Ego4D 自然语言查询挑战赛

本文介绍了一种基于两阶段预训练策略及新颖的 GroundNLQ 模型的视频摘要方法。在 Ego4D 自然语言查询挑战方面获得优异的表现，超过其他团队。

Jun, 2023

EPIC-KITCHENS-100 多实例检索挑战赛 2022 年，自我中心视频语言预训练

本文提出了基于视频 - 语言预训练的解决方案，利用最近发布的 Ego4D 数据集，从预训练数据集、预训练目标和开发集的角度开创了自我中心的视频 - 语言预训练学习，从而获得了优秀的性能表现。

Jul, 2022

当坚强的骨架遇见强大的特征 —— 用于 Ego4D 时刻查询挑战的 ActionFormer

我们在 Ego4D Moment Queries Challenge 2022 的比赛中使用了 ActionFormer 作为主体，加上 SlowFast、Omnivore 和 EgoVLP 三种强大的视频特征，我们的解决方案在测试集上的平均 mAP 为 21.76％，是官方基线的三倍，同时我们在 tIoU = 0.5 下获得 42.54％的 Recall @1x，绝对百分比达 1.41 个百分点的显着优势。

Nov, 2022

自我中心视频 - 语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法 ——Egocentric VLP，通过利用新发布的 Ego4D 数据集，分别从 EgoClip，EgoNCE 和 EgoMCQ 三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022

RefEgo: 第一人称自我感知的指称表达理解数据集

从第一人称视角将文本表达与场景对象联系起来是开发具有环境意识并按照直观的文字指令行动的代理人的一项真正具有挑战性的能力。本文基于 Ego4D 的第一人称视频构建了广泛的基于视频的引用表达理解数据集：RefEgo，其中包括超过 12k 个视频剪辑和 41 小时的视频引用表达理解批注。通过将最先进的 2D 引用表达理解模型与对象跟踪算法相结合，我们实现了视频中对象的跟踪，即使在困难条件下：视频中的所指对象在视频中间变得超出视野或者视频中出现多个相似对象。

Aug, 2023

Ego4D 长期动作预测的 Video + CLIP 基线

本文报道了我们在长期行动预测方面使用图像 - 文本模型的调整。我们的视频 + CLIP 框架利用了大规模预先训练的成对图像 - 文本模型：CLIP 和视频编码器 Slowfast 网络。两个编码器得到的特征互补，因此在 Ego4D 上的长期行动预测任务中优于基线。我们的代码位于 github.com/srijandas07/clip_baseline_LTA_Ego4d。

Jul, 2022