X-MIC：基于跨模态实例条件的自我中心动作泛化

CVPRMar, 2024

X-MIC：基于跨模态实例条件的自我中心动作泛化

X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization

Anna Kukleva, Fadime Sener, Edoardo Remelli, Bugra Tekin, Eric Sauser...

TL;DR通过提出的简单而有效的跨模态适应框架 X-MIC，我们在图像和第三人称视频分类中将视觉语言模型（VLMs）成功进行零样本识别的研究成果进一步应用到自视角视频，通过学习在共享嵌入空间中在视频适配器的帮助下，将文本嵌入与每个自视角视频对齐，最终实现了文本嵌入与自视角视频之间的增强对齐，显著提升了跨数据集的泛化能力。

Abstract

Lately, there has been growing interest in adapting vision-language models (VLMs) to image and third-person video classification due to their success in zero-shot recognition. However, the adaptation of these mod

vision-language models egocentric videos cross-modal adaptation video classification cross-dataset generalization

发现论文，激发创造

GPT4Ego: 发挥预训练模型潜力的零样本个人行为识别

我们介绍了 GPT4Ego，这是一种简单但非常强大的 Vision-Language Models 框架，设计用于增强视觉和语言之间的概念和描述的精细对齐，通过在自我中心视频中利用丰富的语义和上下文细节，GPT4Ego 在三个大规模自我中心视频基准（EPIC-KITCHENS-100、EGTEA 和 CharadesEgo）上明显优于现有的 Vision-Language Models（分别提升了 33.2%、39.6% 和 31.5%）。

Jan, 2024

EPIC-KITCHENS-100 多实例检索挑战赛 2022 年，自我中心视频语言预训练

本文提出了基于视频 - 语言预训练的解决方案，利用最近发布的 Ego4D 数据集，从预训练数据集、预训练目标和开发集的角度开创了自我中心的视频 - 语言预训练学习，从而获得了优秀的性能表现。

Jul, 2022

自我中心视频 - 语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法 ——Egocentric VLP，通过利用新发布的 Ego4D 数据集，分别从 EgoClip，EgoNCE 和 EgoMCQ 三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

LEGO: 通过视觉指导调整学习自我中心动作帧生成

从以自身为中心的视角生成人类日常行为的指导性图像是有效的技能传递的一个关键步骤。本文提出了一个新颖的问题 —— 以自身为中心的动作帧生成。目标是根据用户提示问题和捕捉用户环境的输入自身中心图像，合成动作帧。值得注意的是，现有的自身中心数据集缺乏描述动作执行的详细注释。此外，基于扩散的图像操作模型无法控制动作在相应自身中心图像像素空间内的状态变化。为此，我们通过视觉指导优化自然语言大型模型（VLLM），以充实的动作描述进行微调，以解决我们提出的问题。此外，我们还提出利用来自 VLLM 的图像和文本嵌入作为附加条件的 Learn EGOcentric（LEGO）动作帧生成方法。我们在两个自身中心数据集 ——Ego4D 和 Epic-Kitchens 上验证了我们的模型。我们的实验证明，在定量和定性评估方面，我们的提出的模型相较于先前的图像操作模型有显著改进。我们还进行了详细的消融研究和分析，为我们的方法提供了深入认识。

Dec, 2023

利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索

本文介绍了一个名叫 BIKE 的，通过使用视频和文本之间的跨模态桥梁，通过视频设置自动补充的文字辅助属性，和通过文本确定带有时间明显性的位置，以增强视频表示，从而有效提高各种识别情景下的视频识别性能的创新框架。在六个流行的视频数据集中进行的广泛研究表明，我们的方法在各种识别方案中均实现了最先进的性能。

Dec, 2022

用于自拍视频中视觉语言模型的高效上下文学习

通过对闭环视频的上下文学习方法的改进，我们提出了一种高效的闭环视频模型训练方法（EILEV），无需大规模的数据集，能够有效地学习闭环视频的上下文信息，提高模型在闭环视频任务上的性能。

Nov, 2023

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

Exo2EgoDVC：使用网络教育视频进行以自我为中心的程序性活动的密集视频标题生成

提出了一种用于稠密视频字幕的跨视图知识传递的新型基准，从具有外视图的网页教学视频调整模型以适应内视图领域。

Nov, 2023

AlanaVLM：一种用于视角视频理解的多模态具身 AI 基础模型

通过三个主要贡献，我们提出了能够与人类高效协作的 AI 个人助手的机器人或穿戴设备部署需要体现理解。为了填补当前视觉 - 语言模型在第三人视角视频上的研究的空白，我们引入了以自我中心感知经验为特定的视角视频字幕和问题回答任务训练视觉 - 语言模型的自我中心视频理解数据集（EVUD）。然后，我们提出了通过 EVUD 上的参数高效方法训练的 7B 参数的 AlanaVLM。最后，我们评估了 AlanaVLM 在 OpenEQA 上的能力，即一个对于具有挑战性的实体视频问题回答的基准测试。我们的模型达到了最先进的性能，超过了包括使用 GPT-4 作为规划者的强 Socratic 模型在内的开源模型 3.6%。此外，我们超越了 Claude 3 和 Gemini Pro Vision 1.0，与 Gemini Pro 1.5 和 GPT-4V 相比展示了竞争性的结果，甚至在空间推理上超过了后者。这项研究为构建能够在机器人或穿戴设备中部署的高效视觉 - 语言模型铺平了道路，利用体现理解的视频理解，无缝地与人类协作进行日常任务，为下一代具有体现 AI 特性的技术做出贡献。

Jun, 2024