BLA 基准：研究预训练多模态模型的基本语言能力

EMNLPOct, 2023

BLA 基准：研究预训练多模态模型的基本语言能力

The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained Multimodal Models

Xinyi Chen, Raquel Fernández, Sandro Pezzelle

TL;DR我们探索了预训练语言与视觉模型在基本语言构造方面的处理程度，并提出了 BLA 评估基准，发现各种类型的基于 Transformer 的系统普遍在零样本设置下难以处理 BLA，但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势，这为将 BLA 用作评估基准以及提高模型的基本语言能力打开了大门。

Abstract

Despite the impressive performance achieved by pre-trained language-and-vision models in downstream tasks, it remains an open question whether this reflects a proper understanding of image-text interaction. In this work, we explore to what extent they handle →

pre-trained language-and-vision models image-text interaction basic linguistic constructions multimodal models basic language abilities

发现论文，激发创造

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

BERT 是否盲目？探索视觉语言预训练对视觉语言理解的影响

本研究探讨了图像与语言预训练是否可以提高模型在需要隐含视觉推理的文本任务上的性能，提出了一系列用于探测文本编码模型视觉推理能力的任务，并说明了采用多模态预训练方法可以提高文本编码器的性能。

Mar, 2023

高效多语言视觉 - LLMs 引导程序的启动

通过利用机器翻译产生多语言数据来实现对预训练的多语言 LLM 的图像编码器的重新对准，从而在消费者硬件上使用少量训练数据来获得第一款多语言 Vision-LLM，与从头开始训练的大规模 Vision-LLM 相比表现出色。

Jul, 2023

英语语言最小对比基准: BLiMP

BLiMP 是一套挑战集，用于评估语言模型对英语中主要语法现象的理解水平。研究表明，现有模型能够可靠地识别形态对比，但在限定词和否定极性项分布以及提取岛等微妙的语法现象上仍面临挑战。

Dec, 2019

BLIP-2：使用冻结图像编码器和大型语言模型引导语言图像预训练

本文提出 BLIP-2，一种通用且高效的预训练策略，通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习，从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。

Jan, 2023

Babel-ImageNet：大规模多语言视觉语言表示的评估

使用 Babel-ImageNet 建立大规模多语言图像描述数据集，通过在 0-shot 图像分类任务上的表现大幅验证了多语言 VL 模型的性能差异并证明了其在图像 - 文本检索上的可行性。

Jun, 2023

关于使用大型语言模型进行双语词典归纳

使用最新一代的大型语言模型，我们系统地研究了双语词典诱导（BLI）任务，包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调，并证明了与当前 BLI 方法相比，这种方法在许多语言对上取得了最新的 BLI 成绩。

Oct, 2023

InstructBLIP：通过指导微调实现通用的视觉 - 语言模型

本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取，该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型，在单个下游任务的微调中获得了最先进的性能。

May, 2023

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023

CLiMB: 用于视觉语言任务的持续学习基准

本研究介绍了 CLiMB 基准测试，并提出了一种改进的视觉 - 语言 Transformer (ViLT) 模型，用于同时处理多模态任务和单模态任务的连续学习问题。通过实验发现，虽然常见的连续学习方法可以缓解多模态任务学习中的遗忘问题，但并不能实现跨任务的知识转移。该基准测试将有助于研究这个多模态场景下的新型连续学习算法。

Jun, 2022