LEGO: 通过视觉指导调整学习自我中心动作帧生成

Dec, 2023

LEGO: 通过视觉指导调整学习自我中心动作帧生成

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg...

TL;DR从以自身为中心的视角生成人类日常行为的指导性图像是有效的技能传递的一个关键步骤。本文提出了一个新颖的问题 —— 以自身为中心的动作帧生成。目标是根据用户提示问题和捕捉用户环境的输入自身中心图像，合成动作帧。值得注意的是，现有的自身中心数据集缺乏描述动作执行的详细注释。此外，基于扩散的图像操作模型无法控制动作在相应自身中心图像像素空间内的状态变化。为此，我们通过视觉指导优化自然语言大型模型（VLLM），以充实的动作描述进行微调，以解决我们提出的问题。此外，我们还提出利用来自 VLLM 的图像和文本嵌入作为附加条件的 Learn EGOcentric（LEGO）动作帧生成方法。我们在两个自身中心数据集 ——Ego4D 和 Epic-Kitchens 上验证了我们的模型。我们的实验证明，在定量和定性评估方面，我们的提出的模型相较于先前的图像操作模型有显著改进。我们还进行了详细的消融研究和分析，为我们的方法提供了深入认识。

Abstract

Generating instructional images of human daily actions from an egocentric viewpoint serves a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize the action frame conditioning on the user

egocentric action frame generation egocentric datasets diffusion-based image manipulation models visual large language model (vllm)learn egocentric (lego) action frame generation

发现论文，激发创造

GPT4Ego: 发挥预训练模型潜力的零样本个人行为识别

我们介绍了 GPT4Ego，这是一种简单但非常强大的 Vision-Language Models 框架，设计用于增强视觉和语言之间的概念和描述的精细对齐，通过在自我中心视频中利用丰富的语义和上下文细节，GPT4Ego 在三个大规模自我中心视频基准（EPIC-KITCHENS-100、EGTEA 和 CharadesEgo）上明显优于现有的 Vision-Language Models（分别提升了 33.2%、39.6% 和 31.5%）。

Jan, 2024

X-MIC：基于跨模态实例条件的自我中心动作泛化

通过提出的简单而有效的跨模态适应框架 X-MIC，我们在图像和第三人称视频分类中将视觉语言模型（VLMs）成功进行零样本识别的研究成果进一步应用到自视角视频，通过学习在共享嵌入空间中在视频适配器的帮助下，将文本嵌入与每个自视角视频对齐，最终实现了文本嵌入与自视角视频之间的增强对齐，显著提升了跨数据集的泛化能力。

Mar, 2024

LEAP: LLM - 基于我为中心的行动程序生成

LEAP 是一种通过使用大型语言模型（Large Language Model）生成视频相关行动程序的新方法，这些行动程序代表行动的动作、感知和结构方面，并包括子动作、前后条件和控制流。通过在 EPIC Kitchens 数据集的大部分训练集上应用 LEAP，并发布生成的行动程序，我们将 LEAP 作为辅助监督源，通过应用其行动程序对行动识别和预测网络施加的损失函数，我们在这两个任务上实现了显著的性能提升。截至 11 月 17 日，我们的方法在 EPIC Kitchens 行动识别排行榜上排名第一。

Nov, 2023

意图驱动的个体到外部视频生成

提出了一种基于行动意图的自我转他视视频生成框架（IDE），通过利用包括人类运动和动作描述的行动意图作为视角无关表示指导视频生成，保留了内容和动作的一致性。

Mar, 2024

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

自我中心视频 - 语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法 ——Egocentric VLP，通过利用新发布的 Ego4D 数据集，分别从 EgoClip，EgoNCE 和 EgoMCQ 三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

从外向内视角理解跨视角动作识别

提出了一种跨视角学习的方法，通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制，以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好，并达到了最先进的性能。

May, 2023

Action2Sound: 环境感知的从自我为中心视频生成行动声音

提出了一种新颖的环境感知音频生成模型，用于根据视频内容生成符合语义和时间要求的音频；使用了特殊的音频条件机制，以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。

Jun, 2024

开启自我中心行动的词汇

本文提出了一种新颖的开放词汇动作识别任务，在训练期间观察到的动词和物体的基础上，通过一个与物体无关的动词编码器和一个基于提示的物体编码器来将动词和物体预测分离，借助 CLIP 表示来预测一组相互作用的对象的开放词汇。在 EPIC-KITCHENS-100 和 Assembly101 数据集上创建了开放词汇基准，而闭合动作方法无法泛化，我们提出的方法非常有效。此外，我们的物体编码器在识别新的相互作用物体方面显著优于现有的开放词汇视觉识别方法。

Aug, 2023