超越言语：测试预训练 V&L 模型在计数任务中的跨模态能力

MMDec, 2020

超越言语：测试预训练 V&L 模型在计数任务中的跨模态能力

Seeing past words: Testing the cross-modal capabilities of pretrained V&L models on counting tasks

Letitia Parcalabescu, Albert Gatt, Anette Frank, Iacer Calixto

TL;DR本研究探讨了预训练视觉和语言模型在两个需要多模态集成的任务中的推理能力：（1）区分正确的图像 - 句子对与不正确的对，以及（2）计算图像中的实体。结果显示，预训练的 V＆L 模型非常擅长解决任务（1），但无法充分解决任务（2），即计数探针，并不能推广到不同分布的数量。研究为我们提供了一些对这些发现的解释，并建议理解这些模型的推理和基础能力需要更有目的的调查。

Abstract

We investigate the reasoning ability of pretrained vision and language (V&L) models in two tasks that require multimodal integration: (1) discriminating a correct image-sentence pair from an incorrect one, and (2) count

pretrained vision and language models multimodal integration image-sentence pairing counting entities reasoning and grounding capabilities

发现论文，激发创造

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

BERT 是否盲目？探索视觉语言预训练对视觉语言理解的影响

本研究探讨了图像与语言预训练是否可以提高模型在需要隐含视觉推理的文本任务上的性能，提出了一系列用于探测文本编码模型视觉推理能力的任务，并说明了采用多模态预训练方法可以提高文本编码器的性能。

Mar, 2023

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

精细视觉语言理解进展的衡量

本文通过对四个具有挑战性的细粒度基准进行实验研究，发现 X-VLM 是最好的模型，同时强调新的损失函数和丰富的数据源对于学习细粒度技能非常重要。

May, 2023

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

探究视觉与语言预训练模型的鲁棒性

通过对现有的预训练模型进行全面评估和改进，本研究提出了一种名为 Mango 的方法，在嵌入空间中学习多模态对抗性噪声生成器，使得预训练的视觉 - 语言模型的鲁棒性得到了大幅度提升，并在七项鲁棒性测试中创造了新的最高水平。

Dec, 2020

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021