InternVideo-Ego4D: Ego4D 挑战的优胜解决方案包
本研究报告介绍了我们在 CVPR 2024 年的 EgoVis 挑战中的解决方案,包括 Ego4D 挑战中的五个赛道和 EPIC-Kitchens 挑战中的三个赛道。我们基于视频语言双塔模型,并利用我们精心组织的自我中心视频数据,推出了一种新颖的基础模型 EgoVideo,该模型专门针对自我中心视频的独特特点进行设计,并为我们的竞赛提交提供了强大支持。通过将 EgoVideo 适应到这些多样化任务中,展示了它在不同自我中心视频分析场景中的多功能性和有效性,展示了 EgoVideo 作为自我中心基础模型的强大表示能力。
Jun, 2024
本文提供 CVPR 2022 中 Ego4D 自然语言查询挑战的技术报告,针对当前自然语言查询任务使用第三人称视角数据集,未涉及目前使用第一人称视角数据集(例如 Ego4D)面临的较小时间跨度和更复杂的视频理解问题,论文提出解决这些问题的方案。
Aug, 2022
本技术报告介绍了 Ego4D 挑战中对一组自我中心视频任务的关系进行探索的 EgoTask 翻译方法。我们提出利用已开发用于其他相关任务的现有模型,并设计一个任务翻译器,学习将辅助任务特征 “翻译” 为主要任务,以提高其性能。在没有对基线架构进行任何修改的情况下,我们提出的方法在两个 Ego4D 挑战赛中取得了竞争性的表现,在 “和我说话” 挑战中排名第一,在 PNR 关键帧定位挑战中排名第三。
Feb, 2023
介绍了规模巨大的 “Ego4D” 自我中心视频数据集及其基准套件,它提供了来自全球 74 个地点和 9 个不同国家的 931 个独特摄像头佩戴者的 3,670 小时日常活动视频。该数据集的采集过程严格遵守隐私和伦理标准,并具有鲁棒的去识别程序。其中的一部分视频配有音频、环境的 3D 网格、注视点、立体声和 / 或来自多个自我中心摄像头的同步视频,提供了关于自我中心视觉体验的新的基准挑战。通过公开分享这个海量的注释数据集和基准测试套件,我们旨在推动第一人称感知的前沿。
Oct, 2021
本文介绍了一种基于两阶段预训练策略及新颖的 GroundNLQ 模型的视频摘要方法。在 Ego4D 自然语言查询挑战方面获得优异的表现,超过其他团队。
Jun, 2023
本文提出了基于视频 - 语言预训练的解决方案,利用最近发布的 Ego4D 数据集,从预训练数据集、预训练目标和开发集的角度开创了自我中心的视频 - 语言预训练学习,从而获得了优秀的性能表现。
Jul, 2022
我们在 Ego4D Moment Queries Challenge 2022 的比赛中使用了 ActionFormer 作为主体,加上 SlowFast、Omnivore 和 EgoVLP 三种强大的视频特征,我们的解决方案在测试集上的平均 mAP 为 21.76%,是官方基线的三倍,同时我们在 tIoU = 0.5 下获得 42.54%的 Recall @1x, 绝对百分比达 1.41 个百分点的显着优势。
Nov, 2022
本文提出了一种新的视频语言预训练(Video-Language Pretraining)方法 ——Egocentric VLP,通过利用新发布的 Ego4D 数据集,分别从 EgoClip,EgoNCE 和 EgoMCQ 三个方向进行探索,最终成功在五个自我中心任务上实现了强大的表现。
Jun, 2022
从第一人称视角将文本表达与场景对象联系起来是开发具有环境意识并按照直观的文字指令行动的代理人的一项真正具有挑战性的能力。本文基于 Ego4D 的第一人称视频构建了广泛的基于视频的引用表达理解数据集:RefEgo,其中包括超过 12k 个视频剪辑和 41 小时的视频引用表达理解批注。通过将最先进的 2D 引用表达理解模型与对象跟踪算法相结合,我们实现了视频中对象的跟踪,即使在困难条件下:视频中的所指对象在视频中间变得超出视野或者视频中出现多个相似对象。
Aug, 2023
本文报道了我们在长期行动预测方面使用图像 - 文本模型的调整。我们的视频 + CLIP 框架利用了大规模预先训练的成对图像 - 文本模型:CLIP 和视频编码器 Slowfast 网络。两个编码器得到的特征互补,因此在 Ego4D 上的长期行动预测任务中优于基线。我们的代码位于 github.com/srijandas07/clip_baseline_LTA_Ego4d。
Jul, 2022