鹰:自我中心聚合语言视频引擎
通过问题回答对现实生活中的个人行为视频进行对话式任务理解,以制定EgoTaskQA基准,并在其中对最先进的视频推理模型进行评估,以此引导视觉界朝着面向目标的视频理解和推理的方向前进。
Oct, 2022
本研究提出了一个适应性范例,涉及到实时情境下的自我行为识别,并针对其在用户领域进行了优化,构建了EgoAdapt评估框架以应对现实中的挑战,同时提供了直接利用用户数据流进行度量的新指标,并且在50个独立的用户流之间进行元评估。
Jul, 2023
我们提出了Ego-Exo4D,这是一个多样化、大规模的多模态多视图视频数据集和基准挑战。Ego-Exo4D集中于同时捕捉到的技能人类活动(例如,体育运动、音乐、舞蹈、自行车修理)的自我中心和外部视角视频,通过来自全球13个城市的800多名参与者在131个不同的自然场景环境中进行了这些活动,每个活动的长时间录制为1到42分钟不等,总共获得了1,422小时的视频。该数据集具有前所未有的多模态特性:视频伴随着多通道音频、眼动数据、3D点云、相机姿态、IMU数据以及多个配对的语言描述,包括由教练和教师进行的针对技能活动领域的新颖的“专家评论”。为了推进对技能人类活动的第一人视角视频理解的研究前沿,我们还提出了一系列基准任务及其标注,包括细粒度活动理解、熟练度估计、跨视角转换和3D手/身体姿态。所有资源将以开源方式提供,以促进社区中的新研究。
Nov, 2023
LEAP 是一种通过使用大型语言模型(Large Language Model)生成视频相关行动程序的新方法,这些行动程序代表行动的动作、感知和结构方面,并包括子动作、前后条件和控制流。通过在 EPIC Kitchens 数据集的大部分训练集上应用 LEAP,并发布生成的行动程序,我们将 LEAP 作为辅助监督源,通过应用其行动程序对行动识别和预测网络施加的损失函数,我们在这两个任务上实现了显著的性能提升。截至11月17日,我们的方法在 EPIC Kitchens 行动识别排行榜上排名第一。
Nov, 2023
我们提出了Egocentric Action Scene Graphs (EASGs),一种用于理解视角视频的长篇形式的新表示。通过提供相机佩戴者执行的动作、互动对象及其关系以及动作在时间上的展现的时间演变基于图的描述,EASGs扩展了egocentric视频的标准手动注释表示。通过一种新的注释过程,我们通过添加手动标注的Egocentric Action Scene Graphs扩展了Ego4D数据集,为长篇理解的egocentric视频提供了丰富的注释。因此,我们定义了EASG生成任务并提供了一种基准方法,建立了初步的基准。针对两个下游任务(egocentric action anticipation和egocentric activity summarization)的实验突出了EASGs在长篇egocentric视频理解方面的有效性。我们将发布数据集和代码以复现实验和注释。
Dec, 2023
为了将对视频流的整体感知有效地传递给智能机器,我们通过学习将概念关联和来自不同任务的抽象知识协同利用来学习新技能,提出了一种统一的视频理解方法,它结合了人类行为的共享时间建模和最小开销,支持多个下游任务及在学习新技能时的合作,并通过四个Ego4D基准测试表明了我们方法的有效性和高效性。
Mar, 2024
通过提出一个名为EgoHOIBench的开放词汇基准测试,揭示了当前以对象为主而非时态动态的方法在精细概念上表现不佳,引入了一种新颖的针对EgoHOI的不对称对比目标EgoNCE++,并改进了文本监督和视频聚合策略,有效地提高了开放词汇的HOI识别和动作识别任务的性能。
May, 2024
在开放环境中学习推断标签,即在目标“标签”未知的情况下,是实现自主性的重要特征。我们提出了一种神经符号框架(ALGO),通过使用存储在大规模知识库中的符号知识,在仅有有限监督的情况下,推断自心视角视频中的活动。
Jun, 2024
本研究旨在解决自我中心视频学习中外向视频-语言数据应用的挑战,通过采用数据转化框架,将外向数据适应于自我中心训练,聚焦于手-物体互动的视频片段以及叙述风格的转化。通过广泛的评估,展示了EMBED方法在多个自我中心下游任务中的优越性,尤其是在零样本设置中在多个基准测试上的达到最新水平的成果。
Aug, 2024
本研究针对可穿戴设备普及后的自我运动学习问题,提出了EgoLM框架,通过多模态输入(如自我中心视频和运动传感器)追踪和理解自我运动。关键创新在于利用大型语言模型来建模自我运动与自然语言的联合分布,从而有效提升了运动追踪和理解的性能。实验结果表明,EgoLM在多模态人类运动数据集上的表现证明其作为通用自我中心学习模型的有效性。
Sep, 2024