Sep, 2022

PaLI: 一个共同缩放的多语言语言图像模型

TL;DRPaLI 是一种简单、模块化和可扩展的神经网络模型,利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模,并在多种语言的情况下生成文本并完成多模态任务,此外,通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务,实现了多项视觉和语言任务的最新水平。