PaLI-X: 多语言视觉与语言模型的扩展
PaLI 是一种简单、模块化和可扩展的神经网络模型,利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模,并在多种语言的情况下生成文本并完成多模态任务,此外,通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务,实现了多项视觉和语言任务的最新水平。
Sep, 2022
PaLI-3 是一个较小、更快、更强的视觉语言模型(VLM),相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer(ViT)模型相比,SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势,但在各种多模态基准测试中表现出优越的性能,特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数,并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究,并推动新一代扩展模型的发展。
Oct, 2023
通过使用 Pathways ML 系统训练 PaLM,我们证明了模型规模对少样本学习的影响,PaLM 540B 在大量语言理解、生成基准测试中取得了突破性表现,并在多步推理任务中超越了微调表现,另外还有强大的多语种任务和源代码生成能力,以及对偏差和毒性的全面分析。
Apr, 2022
本研究介绍了一个大型多语言多模态模型 Palo,它提供了 10 种主要语言(包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语)的视觉推理能力,总计覆盖了约 50 亿人口(世界总人口的 65%)。我们的方法采用半自动翻译方式,使用经过精调的大型语言模型将英语的多模态指令数据集转化为目标语言,以确保高语言准确性并保证可扩展性。不同语言指令的融合帮助我们提高跨多种语言的模型性能,尤其是对于印地语、阿拉伯语、孟加拉语和乌尔都语等少数被代表的语言。我们通过三个规模(17 亿、70 亿和 130 亿参数)的训练展示了该模型的普适性和可扩展性,观察到与强基线相比具有显著改进。同时,我们提出了第一个多语言多模态基准,用于评估不同语言之间的视觉推理能力。
Feb, 2024
这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法,它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型,它采用了模块化架构,可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡,并显示了其高可转移性,可以在任何语言或领域中使用。
Nov, 2022
提出一种 SMALR 模型,它支持多种语言,其许多单词具有固定的语言不可知表示,同时保留少量的特定语言特征,并且它使用掩模交叉语言建模损失来对齐其他语言的上下文特征,具有较好的跨语言一致性。验证了该模型在多语言图像 - 句子检索任务上的有效性。
Apr, 2020
我们的研究表明,渐进对齐语言模型能够有效地连接冻结的视觉编码器和大型语言模型。通过采用渐进对齐的语言模型作为视觉 - 语言适配器,我们的方法在收敛速度、性能和可扩展性方面都超过了现有的方法,并且使用的参数数量比现有的大规模视觉 - 语言模型减少了 30~70%,从而实现了显著的效率提升。
Feb, 2024
本篇研究通过重新翻译 14 种不同语言的 MNLI 数据集,包括 XNLI 测试和开发集,以改进原始 XNLI 数据集,并通过在 15 种不同语言中训练模型并分析其在自然语言推断任务上的表现来实现跨语言理解和自然语言处理,同时通过在英语以外的语言中训练模型来探索在资源匮乏的语言(如斯瓦希里和乌尔都语)中提高性能的可能性。
Jan, 2023
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
Mar, 2024
AudioPaLM 结合了 PaLM-2 和 AudioLM 两种语言模型,实现了对文本和语音的处理和生成,在语音识别和语音翻译等应用中具有优异性能,并且具有零 - shot 语音到文字翻译的能力。
Jun, 2023