图像 - 语言学习的联合自适应表示

May, 2023

图像 - 语言学习的联合自适应表示

Joint Adaptive Representations for Image-Language Learning

AJ Piergiovanni, Anelia Angelova

TL;DR通过联合学习紧凑的视觉和语言表示形式以及使用自适应的、迭代融合多模态特征的方法来实现图像 - 语言学习，并增加数据效率和降低计算复杂度。该方法相比于当前流行的图像 - 语言模型而言，可降低 33% 的浮点数操作次数，同时提高性能，而只需要较少的数据和计算资源，这比使用更大的数据集和 FLOPs 几乎是 2-20 倍的最新模型更为优秀。

Abstract

image-language learning has made unprecedented progress in visual understanding. These developments have come at high costs, as contemporary vision-language models require large model scales and amounts of data. We here propose a much easier recipe for →

image-language learning multi-modal features data efficiency flops reduction adaptive pre-training

发现论文，激发创造

多元化的联合视觉 - 语言标记化学习

建立跨图片和文本的联合表示是视觉问答和视频问答等任务的重要步骤。本研究发现，这些表示不仅必须同时捕捉两种模态的特征，而且还应具有多样性，以获得更好的泛化性能。为此，提出了通过多样化分词学习过程的联合视觉语言表示学习，可以学习来自两种模态的足够解开的词元。观察到我们的方法在大多数情况下优于基线模型，并且与最先进的方法竞争力强。

Jun, 2023

FLoRA：利用参数高效的联邦学习增强视觉语言模型

该论文提出了一种融合 Federated Learning 和 parameter-efficient adapters (LoRA) 的方法，以训练视觉语言模型 (VLMs)，该方法通过在分散的数据源上训练模型来保护数据隐私，并通过 LoRA 的参数高效微调来确保模型的适应性和效率。该方法加快了训练速度，比全面微调节省了 2.47 倍的内存使用。

Apr, 2024

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021

学习多语言多模态表示的图像枢转

本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型，其目的是提高多语言版本的图像搜索和理解，在图像描述排名及语义文本相似度方面实现了最先进的性能。

Jul, 2017

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

定位与语义：语言如何促进视觉表征学习？

我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征，在广泛的任务范畴内评估学习表征的质量，发现视觉 - 语言模型更适合标签预测任务，而仅视觉模型更适合需要更多局部信息的密集预测任务，同时指出语言有利于视觉模型更好地学习语义，但不利于定位。

Dec, 2022

基于视觉 - 语言模型的图像融合

通过利用不同源图像中的显式文本信息来指导图像融合，我们提出了一种名为 FILM 的新型图像融合范式，首次利用 ChatGPT 中的文本信息，通过交叉注意力从源图像中提取关键视觉特征，实现了更深层次的上下文理解，最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中，该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集，其中包含了十个图像融合数据集的段落描述，以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。

Feb, 2024

PaLI: 一个共同缩放的多语言语言图像模型

PaLI 是一种简单、模块化和可扩展的神经网络模型，利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模，并在多种语言的情况下生成文本并完成多模态任务，此外，通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务，实现了多项视觉和语言任务的最新水平。

Sep, 2022