PaLI-X: 多语言视觉与语言模型的扩展

May, 2023

PaLI-X: 多语言视觉与语言模型的扩展

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo...

TL;DRPaLI-X 是一种多语言视觉和语言模型，在组件大小和训练任务混合的广度方面进行了扩展，实现了对各种各样复杂任务的新水平的性能提升，涵盖图像字幕、问题回答、图像文档理解、物体检测、视频问题回答和视频字幕等。

Abstract

We present the training recipe and results of scaling up PaLI-X, a multilingual vision and language model, both in terms of size of the components and the breadth of its training task mixture. Our model achieves new levels of →

multilingual vision and language model performance image-based captioning object detection few-shot learning

发现论文，激发创造

PaLI: 一个共同缩放的多语言语言图像模型

PaLI 是一种简单、模块化和可扩展的神经网络模型，利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模，并在多种语言的情况下生成文本并完成多模态任务，此外，通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务，实现了多项视觉和语言任务的最新水平。

Sep, 2022

PaLI-3 视觉语言模型：更小、更快、更强

PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势，但在各种多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究，并推动新一代扩展模型的发展。

Oct, 2023

PaLM: 基于路径的语言建模规模化

通过使用 Pathways ML 系统训练 PaLM，我们证明了模型规模对少样本学习的影响，PaLM 540B 在大量语言理解、生成基准测试中取得了突破性表现，并在多步推理任务中超越了微调表现，另外还有强大的多语种任务和源代码生成能力，以及对偏差和毒性的全面分析。

Apr, 2022

PALO：面向 50 亿人的多语种大型多模态模型

本研究介绍了一个大型多语言多模态模型 Palo，它提供了 10 种主要语言（包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语）的视觉推理能力，总计覆盖了约 50 亿人口（世界总人口的 65%）。我们的方法采用半自动翻译方式，使用经过精调的大型语言模型将英语的多模态指令数据集转化为目标语言，以确保高语言准确性并保证可扩展性。不同语言指令的融合帮助我们提高跨多种语言的模型性能，尤其是对于印地语、阿拉伯语、孟加拉语和乌尔都语等少数被代表的语言。我们通过三个规模（17 亿、70 亿和 130 亿参数）的训练展示了该模型的普适性和可扩展性，观察到与强基线相比具有显著改进。同时，我们提出了第一个多语言多模态基准，用于评估不同语言之间的视觉推理能力。

Feb, 2024

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

学习将多语言表示扩展到视觉语言任务

提出一种 SMALR 模型，它支持多种语言，其许多单词具有固定的语言不可知表示，同时保留少量的特定语言特征，并且它使用掩模交叉语言建模损失来对齐其他语言的上下文特征，具有较好的跨语言一致性。验证了该模型在多语言图像 - 句子检索任务上的有效性。

Apr, 2020

PaLM2-VAdapter：渐进对齐语言模型构建强大的视觉语言适配器

我们的研究表明，渐进对齐语言模型能够有效地连接冻结的视觉编码器和大型语言模型。通过采用渐进对齐的语言模型作为视觉 - 语言适配器，我们的方法在收敛速度、性能和可扩展性方面都超过了现有的方法，并且使用的参数数量比现有的大规模视觉 - 语言模型减少了 30~70%，从而实现了显著的效率提升。

Feb, 2024

XNLI 2.0：改进 XNLI 数据集和跨语言理解（XLU）性能

本篇研究通过重新翻译 14 种不同语言的 MNLI 数据集，包括 XNLI 测试和开发集，以改进原始 XNLI 数据集，并通过在 15 种不同语言中训练模型并分析其在自然语言推断任务上的表现来实现跨语言理解和自然语言处理，同时通过在英语以外的语言中训练模型来探索在资源匮乏的语言（如斯瓦希里和乌尔都语）中提高性能的可能性。

Jan, 2023

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

AudioPaLM：一种可以说话和听取的大型语言模型

AudioPaLM 结合了 PaLM-2 和 AudioLM 两种语言模型，实现了对文本和语音的处理和生成，在语音识别和语音翻译等应用中具有优异性能，并且具有零 - shot 语音到文字翻译的能力。

Jun, 2023