PaLI: 一个共同缩放的多语言语言图像模型

Sep, 2022

PaLI: 一个共同缩放的多语言语言图像模型

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski...

TL;DRPaLI 是一种简单、模块化和可扩展的神经网络模型，利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模，并在多种语言的情况下生成文本并完成多模态任务，此外，通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务，实现了多项视觉和语言任务的最新水平。

Abstract

Effective scaling and a flexible task interface enable large language models to excel at many tasks. pali (Pathways Language and Image model) extends this approach to the joint modeling of language and vision.

large language models pali multimodal tasks vision transformers pretraining

发现论文，激发创造

PaLI-X: 多语言视觉与语言模型的扩展

PaLI-X 是一种多语言视觉和语言模型，在组件大小和训练任务混合的广度方面进行了扩展，实现了对各种各样复杂任务的新水平的性能提升，涵盖图像字幕、问题回答、图像文档理解、物体检测、视频问题回答和视频字幕等。

May, 2023

PaLI-3 视觉语言模型：更小、更快、更强

PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势，但在各种多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究，并推动新一代扩展模型的发展。

Oct, 2023

PALO：面向 50 亿人的多语种大型多模态模型

本研究介绍了一个大型多语言多模态模型 Palo，它提供了 10 种主要语言（包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语）的视觉推理能力，总计覆盖了约 50 亿人口（世界总人口的 65%）。我们的方法采用半自动翻译方式，使用经过精调的大型语言模型将英语的多模态指令数据集转化为目标语言，以确保高语言准确性并保证可扩展性。不同语言指令的融合帮助我们提高跨多种语言的模型性能，尤其是对于印地语、阿拉伯语、孟加拉语和乌尔都语等少数被代表的语言。我们通过三个规模（17 亿、70 亿和 130 亿参数）的训练展示了该模型的普适性和可扩展性，观察到与强基线相比具有显著改进。同时，我们提出了第一个多语言多模态基准，用于评估不同语言之间的视觉推理能力。

Feb, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

PaLM2-VAdapter：渐进对齐语言模型构建强大的视觉语言适配器

我们的研究表明，渐进对齐语言模型能够有效地连接冻结的视觉编码器和大型语言模型。通过采用渐进对齐的语言模型作为视觉 - 语言适配器，我们的方法在收敛速度、性能和可扩展性方面都超过了现有的方法，并且使用的参数数量比现有的大规模视觉 - 语言模型减少了 30~70%，从而实现了显著的效率提升。

Feb, 2024

PaLM: 基于路径的语言建模规模化

通过使用 Pathways ML 系统训练 PaLM，我们证明了模型规模对少样本学习的影响，PaLM 540B 在大量语言理解、生成基准测试中取得了突破性表现，并在多步推理任务中超越了微调表现，另外还有强大的多语种任务和源代码生成能力，以及对偏差和毒性的全面分析。

Apr, 2022

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

图像作为外语：BEiT 预训练模型用于所有视觉和视觉语言任务

本文介绍了通用的多模态基础模型 BEiT-3，通过三个方面的改进：骨干架构、预训练任务和模型扩展，实现了在视觉和视觉语言任务上的最先进转移性能。

Aug, 2022

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024