视觉 - 语言模型能否以第一人称视角思考？

Nov, 2023

视觉 - 语言模型能否以第一人称视角思考？

Can Vision-Language Models Think from a First-Person Perspective?

Sijie Cheng, Zhicheng Guo, Jingwen Wu, Kechen Fang, Peng Li...

TL;DRVision-language models have the potential to improve first-person perspective tasks, as demonstrated by the evaluation of eighteen popular models on the EgoThink benchmark, constructed with egocentric videos and annotated question-answer pairs. Increasing the number of trainable parameters has a significant impact on model performance, making EgoThink a valuable resource for advancing embodied artificial intelligence and robotics.

Abstract

vision-language models (VLMs) have recently shown promising results in traditional downstream tasks. Evaluation studies have emerged to assess their abilities, with the majority focusing on the third-person perspective, and only a few addressing specific tasks from the →

vision-language models first-person perspective egothink egocentric videos embodied artificial intelligence

发现论文，激发创造

AlanaVLM：一种用于视角视频理解的多模态具身 AI 基础模型

通过三个主要贡献，我们提出了能够与人类高效协作的 AI 个人助手的机器人或穿戴设备部署需要体现理解。为了填补当前视觉 - 语言模型在第三人视角视频上的研究的空白，我们引入了以自我中心感知经验为特定的视角视频字幕和问题回答任务训练视觉 - 语言模型的自我中心视频理解数据集（EVUD）。然后，我们提出了通过 EVUD 上的参数高效方法训练的 7B 参数的 AlanaVLM。最后，我们评估了 AlanaVLM 在 OpenEQA 上的能力，即一个对于具有挑战性的实体视频问题回答的基准测试。我们的模型达到了最先进的性能，超过了包括使用 GPT-4 作为规划者的强 Socratic 模型在内的开源模型 3.6%。此外，我们超越了 Claude 3 和 Gemini Pro Vision 1.0，与 Gemini Pro 1.5 和 GPT-4V 相比展示了竞争性的结果，甚至在空间推理上超过了后者。这项研究为构建能够在机器人或穿戴设备中部署的高效视觉 - 语言模型铺平了道路，利用体现理解的视频理解，无缝地与人类协作进行日常任务，为下一代具有体现 AI 特性的技术做出贡献。

Jun, 2024

GPT4Ego: 发挥预训练模型潜力的零样本个人行为识别

我们介绍了 GPT4Ego，这是一种简单但非常强大的 Vision-Language Models 框架，设计用于增强视觉和语言之间的概念和描述的精细对齐，通过在自我中心视频中利用丰富的语义和上下文细节，GPT4Ego 在三个大规模自我中心视频基准（EPIC-KITCHENS-100、EGTEA 和 CharadesEgo）上明显优于现有的 Vision-Language Models（分别提升了 33.2%、39.6% 和 31.5%）。

Jan, 2024

EgoPlan-Bench：基于多模态大型语言模型的自我中心体验规划基准测试

多模态大型语言模型（MLLMs）在具有出色推理和概括能力的大型语言模型（LLMs）基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试 EgoPlan-Bench，定量调查 MLLMs 在现实场景中作为具身任务规划器的潜力，并构建了一个指导调优数据集 EgoPlan-IT，这些实验结果表明，通过 EgoPlan-IT 调优的模型不仅在我们的基准测试中显著提高了性能，还在模拟中有效地扮演了具身规划器的角色。

Dec, 2023

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

GameVLM：基于视觉语言模型和零和博弈的机器人任务规划决策框架

该研究介绍了一个多智能体框架 (GameVLM)，使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程，通过引入零和博弈理论来解决不同智能体之间的一致性问题，并得出最优解，实验证明该框架具有 83.3% 的平均成功率。

May, 2024

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

TouchStone: 通过语言模型评估视觉 - 语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023