如何建立适合上下文内的序列用于视觉问答

Dec, 2023

如何建立适合上下文内的序列用于视觉问答

How to Configure Good In-Context Sequence for Visual Question Answering

Li Li, Jiawei Peng, Huiyi Chen, Chongyang Gao, Xu Yang

TL;DR大型视觉语言模型通过上下文学习在自然语言处理中取得成功后，研究人员开发了具有上下文学习能力的大型视觉语言模型（LVLMs）。然而，在使用 LVLMs 实现上下文学习时，研究人员通常采用最简单的方式，如随机抽样来配置上下文序列，从而导致结果不理想。为了提高上下文学习性能，本研究以视觉问答（VQA）为案例研究，探索了多样化的上下文配置来寻找有效的配置，并通过改变上下文序列观察 LVLM 输出的变化，以改进我们对 LVLM 的理解。通过在三个 VQA 数据集上进行详尽的实验，我们揭示了应用的 LVLM 的三个重要内在性质，并证明了哪些策略可以始终改善上下文学习的 VQA 性能。

Abstract

Inspired by the success of Large Language Models in dealing with new tasks via in-context learning (ICL) in NLP, researchers have also developed Large Vision-Language Models (LVLMs) with ICL capabilities. However, when implementing ICL using these LVLMs, researchers usually resort to t

large vision-language models in-context learning visual question answering in-context configurations lvlm properties

发现论文，激发创造

ICD-LM: 语言建模驱动视觉语境演示配置

本文研究了如何配置强大的上下文演示序列来解决视觉 - 语言任务，通过观察到配置一个上下文演示序列就是类似于组成一个句子的镜像过程，我们引入了一个特定设计的上下文演示序列生成语言模型 (ICD-LM)，验证了我们的方法适用于视觉问答和图像字幕任务。

Dec, 2023

探索多样的上下文配置进行图像字幕生成

本文通过实验研究，对比了四种图像选择和四种图像描述分配策略，在视觉语言领域的图像字幕生成任务中，探索了不同配置对于在情境学习上的影响，揭示了多模态协同作用下视觉语言情境学习的独特特征。

May, 2023

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

理解和优化视觉 - 语言模型中的上下文学习

通过对视觉 - 语言模型的大规模（LLMs）模型进行背景学习（ICL），本研究发现在 VLMs 中，ICL 主要受到演示的文本信息的驱动，视觉信息对 ICL 性能的影响较小。鉴于该发现，通过分析模型信息流和不同 ICL 设置下的模型内部状态，我们提出了一个简单而有效的方法 MMICES（Mixed Modality In-Context Example Selection），它在选择演示时考虑了视觉和语言两个模态，并显示出更好的 ICL 性能。通过大量实验证实了我们的发现，对 VLMs 的 ICL 性能的理解和改进进行了支持。

Nov, 2023

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024

可学习的上下文向量用于视觉问答

学习型 ICV（L-ICV）从示范中提取必要的任务信息，改善 LMM 中的 ICL 性能，通过与传统 ICL 和其他不可学习的 ICV 方法相比，实验结果显示 L-ICV 能够显著降低计算成本并提高 VQA 任务的准确性。

Jun, 2024

图像中的视觉针在感知和描述的背景中很容易迷失

LoCoVQA 是一个用于评估视觉语言模型（VLM）中的长篇上下文抽取推理的动态基准生成器。该测试评估了 VLM 在回答问题时如何忽略无关信息的能力，表明目前的最先进 VLM 在许多长篇上下文应用中缺乏这种关键能力。

Jun, 2024

基于上下文的代码风格学习方法在基于知识的问题回答中的应用

通过在大型语言模型中使用代码风格的上下文学习方法，从而解决了知识基础问题回答中逻辑格式错误的问题，并在少样本设置下实现了 WebQSP、GrailQA 和 GraphQ 等主流数据集上的最新技术水平。

Sep, 2023