自我运动的多模态语言模型 EgoLM

Sep, 2024

EgoLM: Multi-Modal Language Model of Egocentric Motions

Fangzhou Hong, Vladimir Guzov, Hyo Jin Kim, Yuting Ye, Richard Newcombe...

TL;DR本研究针对可穿戴设备普及后的自我运动学习问题，提出了EgoLM框架，通过多模态输入（如自我中心视频和运动传感器）追踪和理解自我运动。关键创新在于利用大型语言模型来建模自我运动与自然语言的联合分布，从而有效提升了运动追踪和理解的性能。实验结果表明，EgoLM在多模态人类运动数据集上的表现证明其作为通用自我中心学习模型的有效性。

Abstract

As the prevalence of Wearable Devices, learning egocentric motions becomes essential to develop contextual AI. In this work, we present EgoLM, a versatile framework that tracks and understands egocentric motions from Mu

发现论文，激发创造

看和听自我的行动：我们能学到多少？

本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法，利用稀疏时间采样策略，通过音频、空间和时间流的后期融合，在EPIC-Kitchens数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能，特别是在动词分类上实现了5.18%的改进。

Oct, 2019

自我中心视频-语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法——Egocentric VLP，通过利用新发布的Ego4D数据集，分别从EgoClip，EgoNCE和EgoMCQ三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022

EgoVLPv2: 骨干网络中融合的自我中心视频语言预训练

本文介绍第二代自我中心视频-语言预训练(EgoVLPv2)，通过将跨模态融合直接纳入视频和语言主干网络，学习强大的视频文本表示，并在下游任务中灵活有效地支持不同的任务，并且我们提出的主干融合策略比堆叠额外的融合特定层更轻量化和计算效率更高。

Jul, 2023

用于自拍视频中视觉语言模型的高效上下文学习

通过对闭环视频的上下文学习方法的改进，我们提出了一种高效的闭环视频模型训练方法（EILEV），无需大规模的数据集，能够有效地学习闭环视频的上下文信息，提高模型在闭环视频任务上的性能。

Nov, 2023

EgoPlan-Bench：基于多模态大型语言模型的自我中心体验规划基准测试

多模态大型语言模型（MLLMs）在具有出色推理和概括能力的大型语言模型（LLMs）基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试EgoPlan-Bench，定量调查MLLMs在现实场景中作为具身任务规划器的潜力，并构建了一个指导调优数据集EgoPlan-IT，这些实验结果表明，通过EgoPlan-IT调优的模型不仅在我们的基准测试中显著提高了性能，还在模拟中有效地扮演了具身规划器的角色。

Dec, 2023

EgoNCE++：以自我为中心的视觉-语言模型真正理解手-物互动吗？

通过提出一个名为EgoHOIBench的开放词汇基准测试，揭示了当前以对象为主而非时态动态的方法在精细概念上表现不佳，引入了一种新颖的针对EgoHOI的不对称对比目标EgoNCE++，并改进了文本监督和视频聚合策略，有效地提高了开放词汇的HOI识别和动作识别任务的性能。

May, 2024

Nymeria: 野外大规模多模态自我中心的日常动作数据集

介绍了一个大规模的人体运动数据集Nymeria，在野外使用多个多模态视角设备收集。数据集具有全身三维运动真实值、多模态视角设备的记录以及附加的第三人称视角设备。数据集还提供了三维场景点云和校准的注视估计。定义了几个关于自我中心身体追踪、动作合成和动作识别的关键研究任务，并评估了几种最先进的基准算法。

Jun, 2024

AlanaVLM：一种用于视角视频理解的多模态具身AI基础模型

通过三个主要贡献，我们提出了能够与人类高效协作的AI个人助手的机器人或穿戴设备部署需要体现理解。为了填补当前视觉-语言模型在第三人视角视频上的研究的空白，我们引入了以自我中心感知经验为特定的视角视频字幕和问题回答任务训练视觉-语言模型的自我中心视频理解数据集（EVUD）。然后，我们提出了通过EVUD上的参数高效方法训练的7B参数的AlanaVLM。最后，我们评估了AlanaVLM在OpenEQA上的能力，即一个对于具有挑战性的实体视频问题回答的基准测试。我们的模型达到了最先进的性能，超过了包括使用GPT-4作为规划者的强Socratic模型在内的开源模型3.6%。此外，我们超越了Claude 3和Gemini Pro Vision 1.0，与Gemini Pro 1.5和GPT-4V相比展示了竞争性的结果，甚至在空间推理上超过了后者。这项研究为构建能够在机器人或穿戴设备中部署的高效视觉-语言模型铺平了道路，利用体现理解的视频理解，无缝地与人类协作进行日常任务，为下一代具有体现AI特性的技术做出贡献。

Jun, 2024

自我中心视觉语言规划

本研究解决了大型多模态模型（LMMs）在物理世界中的基础性连接问题，提出了一种新颖的方法，即自我中心视觉语言规划（EgoPlan），以应对不同家庭场景中的长期任务。该模型利用扩散模型模拟状态与动作之间的动态关系，实验结果表明，EgoPlan显著提高了从自我中心视角看待任务的成功率。

Aug, 2024

鹰：自我中心聚合语言视频引擎

本研究针对自我中心视频分析中的任务碎片化问题，提出了EAGLE模型和EAGLE-400K数据集，旨在提供一个统一的框架来整合多种视频理解任务。EAGLE是一个强大的多模态大语言模型，能够有效捕捉空间和时间信息，其在多个任务上的出色表现，展示了其在现实世界应用中的潜在价值。

Sep, 2024