用于自拍视频中视觉语言模型的高效上下文学习

Nov, 2023

用于自拍视频中视觉语言模型的高效上下文学习

Efficient In-Context Learning in Vision-Language Models for Egocentric Videos

Keunwoo Peter Yu, Zheyuan Zhang, Fengyuan Hu, Joyce Chai

TL;DR通过对闭环视频的上下文学习方法的改进，我们提出了一种高效的闭环视频模型训练方法（EILEV），无需大规模的数据集，能够有效地学习闭环视频的上下文信息，提高模型在闭环视频任务上的性能。

Abstract

Recent advancements in text-only large language models (LLMs) have highlighted the benefit of in-context learning for adapting to new tasks with a few demonstrations. However, extending in-context learning to lar

in-context learning egocentric videos large vision-language models data adaptation cost-effective training

发现论文，激发创造

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024

自我中心视频 - 语言预训练

本文提出了一种新的视频语言预训练（Video-Language Pretraining）方法 ——Egocentric VLP，通过利用新发布的 Ego4D 数据集，分别从 EgoClip，EgoNCE 和 EgoMCQ 三个方向进行探索，最终成功在五个自我中心任务上实现了强大的表现。

Jun, 2022

MetaVL：从语言模型向视觉语言模型转移上下文学习能力

本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力，通过将自然语言处理领域的元学习应用于视觉 - 语言领域，并使用视觉编码器实现跨域转移学习，实验证明可以显著提高视觉问答任务的上下文学习能力，甚至可以补偿模型的大小并取得比基线模型更好的表现。

Jun, 2023

理解和优化视觉 - 语言模型中的上下文学习

通过对视觉 - 语言模型的大规模（LLMs）模型进行背景学习（ICL），本研究发现在 VLMs 中，ICL 主要受到演示的文本信息的驱动，视觉信息对 ICL 性能的影响较小。鉴于该发现，通过分析模型信息流和不同 ICL 设置下的模型内部状态，我们提出了一个简单而有效的方法 MMICES（Mixed Modality In-Context Example Selection），它在选择演示时考虑了视觉和语言两个模态，并显示出更好的 ICL 性能。通过大量实验证实了我们的发现，对 VLMs 的 ICL 性能的理解和改进进行了支持。

Nov, 2023

AlanaVLM：一种用于视角视频理解的多模态具身 AI 基础模型

通过三个主要贡献，我们提出了能够与人类高效协作的 AI 个人助手的机器人或穿戴设备部署需要体现理解。为了填补当前视觉 - 语言模型在第三人视角视频上的研究的空白，我们引入了以自我中心感知经验为特定的视角视频字幕和问题回答任务训练视觉 - 语言模型的自我中心视频理解数据集（EVUD）。然后，我们提出了通过 EVUD 上的参数高效方法训练的 7B 参数的 AlanaVLM。最后，我们评估了 AlanaVLM 在 OpenEQA 上的能力，即一个对于具有挑战性的实体视频问题回答的基准测试。我们的模型达到了最先进的性能，超过了包括使用 GPT-4 作为规划者的强 Socratic 模型在内的开源模型 3.6%。此外，我们超越了 Claude 3 和 Gemini Pro Vision 1.0，与 Gemini Pro 1.5 和 GPT-4V 相比展示了竞争性的结果，甚至在空间推理上超过了后者。这项研究为构建能够在机器人或穿戴设备中部署的高效视觉 - 语言模型铺平了道路，利用体现理解的视频理解，无缝地与人类协作进行日常任务，为下一代具有体现 AI 特性的技术做出贡献。

Jun, 2024

EgoNCE++：以自我为中心的视觉 - 语言模型真正理解手 - 物互动吗？

通过提出一个名为 EgoHOIBench 的开放词汇基准测试，揭示了当前以对象为主而非时态动态的方法在精细概念上表现不佳，引入了一种新颖的针对 EgoHOI 的不对称对比目标 EgoNCE++，并改进了文本监督和视频聚合策略，有效地提高了开放词汇的 HOI 识别和动作识别任务的性能。

May, 2024

LifelongMemory: 利用 LLM 为参照视频中的问题提供答案

通过使用多个预训练模型从广泛的自我中心视频内容中回答查询，本研究引入了 LifelongMemory，这是一种利用大型语言模型和视觉语言模型的新框架，以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。

Dec, 2023

E-ViLM: 通过语义量化分词的掩码视频建模的高效视频语言模型

通过利用多种形式（例如视频、文本和图像）的多样性多模态数据来构建可扩展的模型，本文提出一种高效的视频 - 语言模型（E-ViLM）和掩码视频建模（MVM）模式，并辅以语义向量量化的分词器。通过简化的任务和常规的预训练模型，E-ViLM 能够从视频 - 语言语料库中学习表达性的表示，并在视频问答、文本到视频检索等广泛的视频 - 语言任务中具有很好的泛化性能，实现了明显的效率提升。

Nov, 2023

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024