大规模视觉语言模型的视域内学习

Feb, 2024

大规模视觉语言模型的视域内学习

Visual In-Context Learning for Large Vision-Language Models

Yucheng Zhou, Xiang Li, Qianning Wang, Jianbing Shen

TL;DR通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Abstract

In large visual language models (LVLMs), the efficacy of in-context learning (ICL) remains limited by challenges in cross-modal interactions

large visual language models in-context learning visual in-context learning intent-oriented image summarization cross-modal interactions

发现论文，激发创造

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

理解和优化视觉 - 语言模型中的上下文学习

通过对视觉 - 语言模型的大规模（LLMs）模型进行背景学习（ICL），本研究发现在 VLMs 中，ICL 主要受到演示的文本信息的驱动，视觉信息对 ICL 性能的影响较小。鉴于该发现，通过分析模型信息流和不同 ICL 设置下的模型内部状态，我们提出了一个简单而有效的方法 MMICES（Mixed Modality In-Context Example Selection），它在选择演示时考虑了视觉和语言两个模态，并显示出更好的 ICL 性能。通过大量实验证实了我们的发现，对 VLMs 的 ICL 性能的理解和改进进行了支持。

Nov, 2023

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

博士 ICL: 演示检索上下文学习

本研究表明，在语义上相似的演示可以提高大型语言模型的性能，这可以通过呈现一些示范来完成，并且可以有效地对大量语言和任务进行泛化，同时，我们还引入了任务特定的演示检索器，以进一步提高性能。

May, 2023

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024

全球最佳视觉上下文学习提示选择

通过提出一种新颖的上下文示例选择框架 Partial2Global，使用基于 transformer 的列表式排序器和一致性感知的排序聚合器，本研究在前景分割、单对象检测和图像上色等任务上验证了其有效性，并与其他方法进行了比较，提出了新的科学研究前沿。

May, 2024

基于检索演示的语言模型的上下文学习：一项调查

语言模型特别是预训练大型语言模型，在上下文少例学习方面表现出非凡的能力，能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索，这不仅提高了学习过程的效率和可伸缩性，还能减少手动示例选择中固有的偏差。基于鼓舞人心的结果和对检索式少例学习领域日益增长的研究，我们对该领域的研究进行了广泛的概述回顾，在此调查中，我们讨论并比较了检索模型、检索训练程序和推理算法的不同设计选择。

Jan, 2024

MMICL: 视觉语言模型的多模态上下文学习

通过考虑模型和数据的角度，提出了 MMICL 去解决图像与文本交叉多模态提示的问题，通过无需训练的数据更好地适应用户真实应用中复杂的提示，其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉 - 语言任务中，特别是在复杂推理基准测试中，MMICL 取得了新的最先进的零样本和少样本性能。同时，对 ScienceQA-IMG 上的实验表明 MMICL 成功缓解了视觉 - 语言模型中的语言偏差问题，我们相信这是 MMICL 卓越性能背后的原因。

Sep, 2023

具有大型语言模型的语境中感知歧义学习

通过对三个文本分类任务的广泛实验，我们发现在选择演示示例时，不仅选择语义上相似的演示示例有益，还选择那些有助于解决测试示例周围固有标签模糊性的演示示例。有趣的是，我们发现包括之前被 LLM 错误分类并且与测试示例的决策边界相近的演示示例能够带来最大的性能提升。

Sep, 2023

单幅图像中的一切：大型多模态模型是图像学习器

该论文介绍了一种新的上下文学习机制 ——In-Image Learning（I²L），将示范示例、视觉线索和指令结合到一张图像中，以增强 GPT-4V 的能力，并通过图像处理、理解和推理能力来整合所有信息，从而避免了复杂图像的文本描述不准确、位置示范示例灵活、输入负担减少、避免多张图像和冗长文本的输入限制等优势。通过引入自动策略选择适当的 ICL 方法，我们进一步整合了不同 ICL 方法的优势，对 MathVista 和 Hallusionbench 进行了实验，测试了 I²L 在复杂多模态推理任务中的有效性以及对语言幻觉和视觉错觉的缓解作用，并探讨了图像分辨率、示范示例数量和位置对 I²L 有效性的影响。我们的代码公开可用于此 https 网址。

Feb, 2024