AlanaVLM：一种用于视角视频理解的多模态具身 AI 基础模型

Jun, 2024

AlanaVLM：一种用于视角视频理解的多模态具身 AI 基础模型

AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding

Alessandro Suglia, Claudio Greco, Katie Baker, Jose L. Part, Ioannis Papaionnou...

TL;DR通过三个主要贡献，我们提出了能够与人类高效协作的 AI 个人助手的机器人或穿戴设备部署需要体现理解。为了填补当前视觉 - 语言模型在第三人视角视频上的研究的空白，我们引入了以自我中心感知经验为特定的视角视频字幕和问题回答任务训练视觉 - 语言模型的自我中心视频理解数据集（EVUD）。然后，我们提出了通过 EVUD 上的参数高效方法训练的 7B 参数的 AlanaVLM。最后，我们评估了 AlanaVLM 在 OpenEQA 上的能力，即一个对于具有挑战性的实体视频问题回答的基准测试。我们的模型达到了最先进的性能，超过了包括使用 GPT-4 作为规划者的强 Socratic 模型在内的开源模型 3.6%。此外，我们超越了 Claude 3 和 Gemini Pro Vision 1.0，与 Gemini Pro 1.5 和 GPT-4V 相比展示了竞争性的结果，甚至在空间推理上超过了后者。这项研究为构建能够在机器人或穿戴设备中部署的高效视觉 - 语言模型铺平了道路，利用体现理解的视频理解，无缝地与人类协作进行日常任务，为下一代具有体现 AI 特性的技术做出贡献。

Abstract

AI personal assistants deployed via robots or wearables require embodied understanding to collaborate with humans effectively. However, current vision-language models (VLMs) primarily focus on third-person view videos, neglecting the richness of egocentric perceptual experience. To add

embodied understanding vision-language models egocentric videos alanavlm embodied video understanding

发现论文，激发创造

视觉 - 语言模型能否以第一人称视角思考？

Vision-language models have the potential to improve first-person perspective tasks, as demonstrated by the evaluation of eighteen popular models on the EgoThink benchmark, constructed with egocentric videos and annotated question-answer pairs. Increasing the number of trainable parameters has a significant impact on model performance, making EgoThink a valuable resource for advancing embodied artificial intelligence and robotics.

Nov, 2023

通过并行的文本世界训练的具有多模态的体验智能体

我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Nov, 2023

GPT4Ego: 发挥预训练模型潜力的零样本个人行为识别

我们介绍了 GPT4Ego，这是一种简单但非常强大的 Vision-Language Models 框架，设计用于增强视觉和语言之间的概念和描述的精细对齐，通过在自我中心视频中利用丰富的语义和上下文细节，GPT4Ego 在三个大规模自我中心视频基准（EPIC-KITCHENS-100、EGTEA 和 CharadesEgo）上明显优于现有的 Vision-Language Models（分别提升了 33.2%、39.6% 和 31.5%）。

Jan, 2024

自我中心视频 - 语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法 ——Egocentric VLP，通过利用新发布的 Ego4D 数据集，分别从 EgoClip，EgoNCE 和 EgoMCQ 三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022

VELMA：街景视觉语言导航中 LLM 代理人的语言表达体现

该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型（VELMA），它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互，相比先前的研究，在两个数据集中，VELMA 完成任务的成功率相比前者提高了 25％-30％

Jul, 2023

驾驶场景的具体理解

自主代理人通过具有大空间和时间跨度的驾驶场景的理解而享有实体化的场景理解，它包括具有鲁棒的空间定位能力和准确探询时间线索的嵌入式语言模型（ELM）。

Mar, 2024

LifelongMemory: 利用 LLM 为参照视频中的问题提供答案

通过使用多个预训练模型从广泛的自我中心视频内容中回答查询，本研究引入了 LifelongMemory，这是一种利用大型语言模型和视觉语言模型的新框架，以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。

Dec, 2023

用于自拍视频中视觉语言模型的高效上下文学习

通过对闭环视频的上下文学习方法的改进，我们提出了一种高效的闭环视频模型训练方法（EILEV），无需大规模的数据集，能够有效地学习闭环视频的上下文信息，提高模型在闭环视频任务上的性能。

Nov, 2023

探索直至自信：面向体验式问答的高效探索

我们提出了一种基于语义推理和视觉语言模型的方法，通过构建语义地图和使用自校准来提高机器人的提问回答和探索效率。

Mar, 2024

PaLM-E：一个实体多模语言模型

研究提出了一种具有体感的语言模型，其可以将现实世界的传感器和语言模型直接结合起来，从而实现语言和感知之间的链接，并且在多个机器人任务、图像问题解答和字幕生成等方面取得了良好的表现。

Mar, 2023