动作场景图：针对自视角视频的长篇理解

Dec, 2023

动作场景图：针对自视角视频的长篇理解

Action Scene Graphs for Long-Form Understanding of Egocentric Videos

Ivan Rodin, Antonino Furnari, Kyle Min, Subarna Tripathi, Giovanni Maria Farinella

TL;DR我们提出了Egocentric Action Scene Graphs (EASGs)，一种用于理解视角视频的长篇形式的新表示。通过提供相机佩戴者执行的动作、互动对象及其关系以及动作在时间上的展现的时间演变基于图的描述，EASGs扩展了egocentric视频的标准手动注释表示。通过一种新的注释过程，我们通过添加手动标注的Egocentric Action Scene Graphs扩展了Ego4D数据集，为长篇理解的egocentric视频提供了丰富的注释。因此，我们定义了EASG生成任务并提供了一种基准方法，建立了初步的基准。针对两个下游任务（egocentric action anticipation和egocentric activity summarization）的实验突出了EASGs在长篇egocentric视频理解方面的有效性。我们将发布数据集和代码以复现实验和注释。

Abstract

We present egocentric action scene graphs (EASGs), a new representation for long-form understanding of egocentric videos. EASGs extend standard manually-annotated representations of →

发现论文，激发创造

利用多任务学习提升自我中心行为识别

本文提出了一种使用多任务学习的方法，通过并行训练网络来提高动作识别的准确率，并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明，该方法在动作识别上的性能明显优于单任务学习模型，并可以准确预测手部和凝视位置。

Sep, 2019

通过时间对齐从未成对的自我-外在视频中学习细粒度视角不变表示

本文提出了一种AE2的自我监督嵌入方法，专门用于从Ego-Exo上下文的视角中学习不变的微观动作特征，并且在细粒度的视频理解任务中均表现出优异的性能。

Jun, 2023

开启自我中心行动的词汇

本文提出了一种新颖的开放词汇动作识别任务，在训练期间观察到的动词和物体的基础上，通过一个与物体无关的动词编码器和一个基于提示的物体编码器来将动词和物体预测分离，借助CLIP表示来预测一组相互作用的对象的开放词汇。在EPIC-KITCHENS-100和Assembly101数据集上创建了开放词汇基准，而闭合动作方法无法泛化，我们提出的方法非常有效。此外，我们的物体编码器在识别新的相互作用物体方面显著优于现有的开放词汇视觉识别方法。

Aug, 2023

Ego-Exo4D: 理解高技能人类活动的第一人称和第三人称视角

我们提出了Ego-Exo4D，这是一个多样化、大规模的多模态多视图视频数据集和基准挑战。Ego-Exo4D集中于同时捕捉到的技能人类活动（例如，体育运动、音乐、舞蹈、自行车修理）的自我中心和外部视角视频，通过来自全球13个城市的800多名参与者在131个不同的自然场景环境中进行了这些活动，每个活动的长时间录制为1到42分钟不等，总共获得了1,422小时的视频。该数据集具有前所未有的多模态特性：视频伴随着多通道音频、眼动数据、3D点云、相机姿态、IMU数据以及多个配对的语言描述，包括由教练和教师进行的针对技能活动领域的新颖的“专家评论”。为了推进对技能人类活动的第一人视角视频理解的研究前沿，我们还提出了一系列基准任务及其标注，包括细粒度活动理解、熟练度估计、跨视角转换和3D手/身体姿态。所有资源将以开源方式提供，以促进社区中的新研究。

Nov, 2023

LEAP: LLM-基于我为中心的行动程序生成

LEAP 是一种通过使用大型语言模型（Large Language Model）生成视频相关行动程序的新方法，这些行动程序代表行动的动作、感知和结构方面，并包括子动作、前后条件和控制流。通过在 EPIC Kitchens 数据集的大部分训练集上应用 LEAP，并发布生成的行动程序，我们将 LEAP 作为辅助监督源，通过应用其行动程序对行动识别和预测网络施加的损失函数，我们在这两个任务上实现了显著的性能提升。截至11月17日，我们的方法在 EPIC Kitchens 行动识别排行榜上排名第一。

Nov, 2023

语音视觉对话图：从自我中心视角到他人中心视角

我们提出了一个统一的多模态、多任务框架——音频视觉对话关注（Av-CONV），用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为，我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能，并进行了详细的消融研究来评估模型中每个组件的贡献。

Dec, 2023

EgoNCE++：以自我为中心的视觉-语言模型真正理解手-物互动吗？

通过提出一个名为EgoHOIBench的开放词汇基准测试，揭示了当前以对象为主而非时态动态的方法在精细概念上表现不佳，引入了一种新颖的针对EgoHOI的不对称对比目标EgoNCE++，并改进了文本监督和视频聚合策略，有效地提高了开放词汇的HOI识别和动作识别任务的性能。

May, 2024

EgoGaussian: 从第一人称视频中使用三维高斯喷射实现动态场景理解

使用EgoGaussian方法，通过RGB egocentric input可以同时重建3D场景和动态跟踪3D物体运动，并在具有挑战性的自然环境中表现优于之前的方法。

Jun, 2024

解锁外向视频-语言数据用于自我中心视频表示学习

本研究旨在解决自我中心视频学习中外向视频-语言数据应用的挑战，通过采用数据转化框架，将外向数据适应于自我中心训练，聚焦于手-物体互动的视频片段以及叙述风格的转化。通过广泛的评估，展示了EMBED方法在多个自我中心下游任务中的优越性，尤其是在零样本设置中在多个基准测试上的达到最新水平的成果。

Aug, 2024

鹰：自我中心聚合语言视频引擎

本研究针对自我中心视频分析中的任务碎片化问题，提出了EAGLE模型和EAGLE-400K数据集，旨在提供一个统一的框架来整合多种视频理解任务。EAGLE是一个强大的多模态大语言模型，能够有效捕捉空间和时间信息，其在多个任务上的出色表现，展示了其在现实世界应用中的潜在价值。

Sep, 2024