VEGA：学习视觉语言大模型中交错的图像文本理解

Jun, 2024

VEGA：学习视觉语言大模型中交错的图像文本理解

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Chenyu Zhou, Mengdan Zhang, Peixian Chen, Chaoyou Fu, Yunhang Shen...

TL;DR通过引入新的任务 Interleaved Image-Text Comprehension (IITC) 及其相关的 VEGA 数据集和 Image-Text Association（ITA）子任务，我们在多模态大模型（MLLMs）上建立了一个坚实的基线，实现了 85.8％的图像关联准确率和 0.508 的 Rouge 分数，结果验证了我们的数据集在提高 MLLMs 对复杂图文理解能力方面的有效性。

Abstract

The swift progress of multi-modal large models (MLLMs) has showcased their impressive ability to tackle tasks blending vision and language. Yet, most current models and benchmarks cater to scenarios with a narrow scope of visual and textual contexts. These models often fall short when

multi-modal large models interleaved image-text comprehension vega dataset image-text association mllms capabilities

发现论文，激发创造

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023

多语言大型语言模型是否能够进行上下文中的文本到图像学习？

将大型语言模型从文本到多模态进化为多模态大型语言模型 (MLLMs)，并扩展了上下文学习 (ICL) 到多模态环境。本研究中提出以 T2I-ICL 为任务的新的 benchmark 数据集 CoBSAT，通过与六个最先进的 MLLMs 算法的对比表明了 T2I-ICL 的困难及其挑战，并探索了 fine-tuning 和 Chain-of-Thought prompting 等策略以实现显著改进。

Feb, 2024

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

SGEITL: 基于场景图增强的图像 - 文本学习，用于视觉常识推理

该论文提出了一种场景图增强的图像 - 文本学习框架，其中利用视觉场景图结构进行常识推理，通过多跳图变压器实现模型结构的正则化，引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验，发现其显着提高了性能并证明了每个提出的组件的有效性。

Dec, 2021

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

通过可操控性和可组合性实现视觉智能和语言智能

该研究探索了多模态大型语言模型在处理复杂的多步骤任务中的能力，重点研究了模型的可操控性、可组合性以及对长期记忆和上下文理解的应用。通过评估 800 个导向性对话的结果，本研究发现不同任务的完成难度存在明显差异，强调了开发结合长期记忆和上下文意识的语言模型在复杂问题解决情境中模拟人类思维过程的重要性。

Nov, 2023

OpenLEAF: 开放领域的图文交替生成与评估

这项工作研究了一项名为开放域交错图像 - 文本生成的挑战性任务，该任务根据输入查询生成交错的文本和图像。我们提出了一种新的基于大型语言模型（LLMs）和预训练的文本到图像模型（T2I）的交错生成框架，即 OpenLEAF。在 OpenLEAF 中，LLM 生成文本描述，协调 T2I 模型，创建用于生成图像的视觉提示，并将全局上下文融入到 T2I 模型中。这种全局上下文提高了交错生成中图像的实体和风格的一致性。我们首先提出使用大型多模态模型（LMMs）来评估开放域交错图像 - 文本序列的实体和风格的一致性。根据 LMM 在我们构建的评估集上的评估，所提出的交错生成框架可以为各种领域和应用生成高质量的图像 - 文本内容，例如如何问答、叙事、图形故事改写以及网页 / 海报生成任务。此外，我们通过人类评估验证了所提出的 LMM 评估技术的有效性。我们希望我们提出的框架、基准和 LMM 评估能够帮助建立有趣的交错图像 - 文本生成任务。

Oct, 2023

纵观文本和图像生成的整体评估

我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准，并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估，我们表明我们的基准和度量可以有效评估现有模型，并与以前的基于参考的度量具有较强的相关性。

Jun, 2024

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024