视觉与语言解码器是否平等使用图像和文本？它们的解释是否自洽？

Apr, 2024

视觉与语言解码器是否平等使用图像和文本？它们的解释是否自洽？

Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?

Letitia Parcalabescu, Anette Frank

TL;DR本研究探讨了视觉和语言模型在生成解释时与提供答案时对模态的依赖程度，并评估了视觉和语言模型解码器在后-hoc和CoT解释设置中的自我一致性，发现视觉和语言模型的自我一致性不如纯语言模型，对图像的贡献要远小于文本的贡献，尤其是在解释生成方面，这种差异在CoT解释设置中尤为明显。此外，对最新的视觉和语言模型解码器进行了基准测试，发现视觉和语言模型解码器仍然在VALSE测试中面临许多困难现象。

Abstract

vision and language models (VLMs) are currently the most generally performant architectures on multimodal tasks. Next to their predictions, they can also produce explanations, either in post-hoc or CoT settings.

发现论文，激发创造

基于解耦式编码-解码网络的视觉-语言预训练中的定时采样

本文提出了一种两流解耦设计的编码器-解码器架构，使用预训练的编码器-解码器结构进行同时视觉语言理解和生成预训练，使用预训练策略优化编码器和解码器，具有良好的泛化性能。

Jan, 2021

e-ViL: 视觉语言任务中自然语言解释的数据集和基准测试

本研究介绍了 e-ViL 和 e-SNLI-VE 为可解释的视觉语言任务建立了一个统一的评估框架。该任务旨在生成自然语言解释，并涉及四个模型和三个数据集。研究人员还提出了一种新模型，该模型结合了 UNITER 和 GPT-2，对所有数据集的现有技术水平取得了很大的突破。

May, 2021

利用多任务预训练技术，提升基础自然语言解释能力

通过应用大规模多任务生成Transformer模型的最新进展，我们提出了一种新的VL-NLE方法，其提供人类更容易理解的解释，并优于当前技术水平。同时，我们还探讨了高质量NLE生成的伦理影响和其他最近VL-NLE研究中存在的问题。

Dec, 2022

消除大型视觉语言模型中的偏见

在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉-语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个“校准”步骤来调整输出分布。这种“事后去偏”的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻LLM先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为“去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了LVLMs在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Mar, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的VLM（Visual Language Model）进行分析，我们发现它们在执行ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的VLM对齐框架，实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了21.03%的ICL表现（平均11.3%），超过了最强VLM基线和多种ICL基准，并为VLM的ICL评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

揭开大型视觉语言模型的一致性之纱

通过多模态基准测试工具ConBench，本研究首次揭示了大型视觉和语言模型在解决方案空间不同的提示下的答案一致性问题，并通过基于触发器的诊断优化方法，间接提高了模型的性能，以增强其描述能力。

May, 2024

视觉-语言Transformer是否具备视觉常识？对VCR的经验研究

此研究旨在通过提供合理的理由作为预测答案的原因，解释并回答视觉场景问题。尽管Vision-Language Transformers在表现上令人满意，但它们存在预训练效果有限、意外的语言偏见、模型架构受限和忽视重要的物体-标签相关性等缺点。因此，从数据集、评估指标和训练技巧等角度，本研究对于未来研究提出了一些方向，有望让研究人员重新审视VCR的直觉和目标，并帮助克服视觉推理中的挑战。

May, 2024

超越视觉问答：MLLM评估的新方法

本研究针对多模态大型语言模型（MLLM）在视觉理解方面的评估，提出了一种新方法，强调模型在独特描述极为相似图像时的能力。通过自我检索机制，使用D3基准测试，我们发现当前模型在细微视觉差异的辨别上表现欠佳，且开源模型的表现甚至未能超越随机猜测。

Sep, 2024

上下文在视觉问答及推理中的重要性：视觉语言模型的语义干预

本研究解决了视觉语言模型（VLM）在视觉问答（VQA）和推理任务中的性能问题，尤其是信息整合的作用。通过引入语义干预（SI）-VQA数据集和交互式语义干预（ISI）工具，研究表明互补信息可以提高答案和推理质量，而矛盾信息则会降低模型表现和信心。这项工作为模态整合的深入分析奠定了基础。

Oct, 2024