探索基于 Anchor 的自我 4D 自然语言查询检测
本文介绍了一种基于两阶段预训练策略及新颖的 GroundNLQ 模型的视频摘要方法。在 Ego4D 自然语言查询挑战方面获得优异的表现,超过其他团队。
Jun, 2023
使用多尺度跨模态 Transformer 和视频帧级对比损失来解决 Ego4D 自然语言查询挑战问题,该方法在排行榜上排名第一。
Jul, 2022
本技术报告介绍了 Ego4D 挑战中对一组自我中心视频任务的关系进行探索的 EgoTask 翻译方法。我们提出利用已开发用于其他相关任务的现有模型,并设计一个任务翻译器,学习将辅助任务特征 “翻译” 为主要任务,以提高其性能。在没有对基线架构进行任何修改的情况下,我们提出的方法在两个 Ego4D 挑战赛中取得了竞争性的表现,在 “和我说话” 挑战中排名第一,在 PNR 关键帧定位挑战中排名第三。
Feb, 2023
本研究报告介绍了我们在 CVPR 2024 年的 EgoVis 挑战中的解决方案,包括 Ego4D 挑战中的五个赛道和 EPIC-Kitchens 挑战中的三个赛道。我们基于视频语言双塔模型,并利用我们精心组织的自我中心视频数据,推出了一种新颖的基础模型 EgoVideo,该模型专门针对自我中心视频的独特特点进行设计,并为我们的竞赛提交提供了强大支持。通过将 EgoVideo 适应到这些多样化任务中,展示了它在不同自我中心视频分析场景中的多功能性和有效性,展示了 EgoVideo 作为自我中心基础模型的强大表示能力。
Jun, 2024
本文介绍了我们在 CVPR 2024 的 Ego4D Episodic Memory Benchmark 中,对于自然语言查询和目标步骤的研究领域的方法。我们的方法不仅处理了视频的时间信息,还在帧内空间上识别了细粒度对象,通过引入 ObjectNLQ 来增强视频表示,提高了定位的准确性。
Jun, 2024
本文提出了一种新的视频语言预训练(Video-Language Pretraining)方法 ——Egocentric VLP,通过利用新发布的 Ego4D 数据集,分别从 EgoClip,EgoNCE 和 EgoMCQ 三个方向进行探索,最终成功在五个自我中心任务上实现了强大的表现。
Jun, 2022
本文旨在解决在长时间自我中心视频中的开放式问题回答,提出一种综合模型来减少错误传播、利用大语言模型进行高效可扩展的数据合成,并引入一个闭合式问题回答任务以管理答案的模糊性。实验证明了我们的方法的有效性,并在 QAEgo4D 和 Ego4D-NLQ 基准测试中达到了最先进的性能。
Dec, 2023
该研究在 Ego4D dataset 基础上提出了针对 2D 视觉图像中的目标检测与跟踪问题的效率更高、效果更好的 baseline 解决方案,并在公共排行榜上表现出色。
Aug, 2022
本文使用 InternVideo 模型在 Ego4D 的 5 个任务中取得了优异的表现,包括 Moment Queries、Natural Language Queries、预测未来的手部动作、目标检测和短期目标交互预测。该模型适用于下游的自我中心视频理解任务,性能显著优于基线方法和 CVPR2022 的冠军,表现出其强大的表示能力。
Nov, 2022
从第一人称视角将文本表达与场景对象联系起来是开发具有环境意识并按照直观的文字指令行动的代理人的一项真正具有挑战性的能力。本文基于 Ego4D 的第一人称视频构建了广泛的基于视频的引用表达理解数据集:RefEgo,其中包括超过 12k 个视频剪辑和 41 小时的视频引用表达理解批注。通过将最先进的 2D 引用表达理解模型与对象跟踪算法相结合,我们实现了视频中对象的跟踪,即使在困难条件下:视频中的所指对象在视频中间变得超出视野或者视频中出现多个相似对象。
Aug, 2023