从自省到最佳实践：多模态情景学习中示范的原则分析

Jul, 2024

从自省到最佳实践：多模态情景学习中示范的原则分析

From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning

Nan Xu, Fei Wang, Sheng Zhang, Hoifung Poon, Muhao Chen

TL;DR通过对多种规模模型在广泛的新任务上进行系统而有原则的评估，我们展示了多模态在上下文学习中的不同影响，并通过模态驱动的示范策略提高了性能。我们的分析为理解多模态上下文学习中示范的作用提供了全面的方法，并为改进多模态上下文学习提供了启示。

Abstract

Motivated by in-context learning (ICL) capabilities of large language models (LLMs), multimodal LLMs with additional visual →

in-context learning large language models multimodal demonstrations modality

发现论文，激发创造

多模态上下文学习的关键是什么？

通过对大型多模态模型的多模态 ICL 的研究，我们发现 M-ICL 主要依赖于文本驱动机制，几乎不受图像模态的影响。当与高级 ICL 策略（如 RICES）一起使用时，M-ICL 并不比基于大多数投票的上下文示例简单策略更好，此外，我们还发现了几种 M-ICL 的偏见和局限性，值得在部署之前考虑。

Apr, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

理解和优化视觉 - 语言模型中的上下文学习

通过对视觉 - 语言模型的大规模（LLMs）模型进行背景学习（ICL），本研究发现在 VLMs 中，ICL 主要受到演示的文本信息的驱动，视觉信息对 ICL 性能的影响较小。鉴于该发现，通过分析模型信息流和不同 ICL 设置下的模型内部状态，我们提出了一个简单而有效的方法 MMICES（Mixed Modality In-Context Example Selection），它在选择演示时考虑了视觉和语言两个模态，并显示出更好的 ICL 性能。通过大量实验证实了我们的发现，对 VLMs 的 ICL 性能的理解和改进进行了支持。

Nov, 2023

让任何多模态大型语言模型都能高效地进行上下文学习

通过聚合多模态演示的图像信息到相应的语言部分的密集潜在空间，我们提出了一种称为 AIM 的通用轻量级框架来解决多模态 ICL 的两个问题。

Jun, 2024

通过隐式示范增强上下文学习

在这篇论文中，我们首次从演示增强的角度来解决上下文学习的挑战，通过丰富演示的表示以及集成特定的统计特性，我们提出了一种简单但高效的方法，显著提高了各种预训练语言模型和任务的平均和最坏情况准确性，并有效减少了不同演示、排列和模板之间的性能差异，并且具备处理不平衡类别分布的能力。

Jun, 2024

揭示基于学习的示范选择在情境学习中的机制

通过分析学习基于示例选择方法的工作机制，我们鉴定出与相似度测量相关的两个重要因素：1）在示例和测试用例输入之间整合不同级别的与任务无关的文本相似度能够增强在不同任务中的泛化能力；2）在测量相似度时结合任务特定标签显著提高每个特定任务的性能。基于这些发现，我们提出了两种适应任务无关和任务特定需求的有效简化示例选择方法，消除了昂贵的大型语言模型推理开销。

Jun, 2024

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

单幅图像中的一切：大型多模态模型是图像学习器

该论文介绍了一种新的上下文学习机制 ——In-Image Learning（I²L），将示范示例、视觉线索和指令结合到一张图像中，以增强 GPT-4V 的能力，并通过图像处理、理解和推理能力来整合所有信息，从而避免了复杂图像的文本描述不准确、位置示范示例灵活、输入负担减少、避免多张图像和冗长文本的输入限制等优势。通过引入自动策略选择适当的 ICL 方法，我们进一步整合了不同 ICL 方法的优势，对 MathVista 和 Hallusionbench 进行了实验，测试了 I²L 在复杂多模态推理任务中的有效性以及对语言幻觉和视觉错觉的缓解作用，并探讨了图像分辨率、示范示例数量和位置对 I²L 有效性的影响。我们的代码公开可用于此 https 网址。

Feb, 2024