PALO：面向 50 亿人的多语种大型多模态模型

Feb, 2024

PALO：面向 50 亿人的多语种大型多模态模型

PALO: A Polyglot Large Multimodal Model for 5B People

Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal...

TL;DR本研究介绍了一个大型多语言多模态模型 Palo，它提供了 10 种主要语言（包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语）的视觉推理能力，总计覆盖了约 50 亿人口（世界总人口的 65%）。我们的方法采用半自动翻译方式，使用经过精调的大型语言模型将英语的多模态指令数据集转化为目标语言，以确保高语言准确性并保证可扩展性。不同语言指令的融合帮助我们提高跨多种语言的模型性能，尤其是对于印地语、阿拉伯语、孟加拉语和乌尔都语等少数被代表的语言。我们通过三个规模（17 亿、70 亿和 130 亿参数）的训练展示了该模型的普适性和可扩展性，观察到与强基线相比具有显著改进。同时，我们提出了第一个多语言多模态基准，用于评估不同语言之间的视觉推理能力。

Abstract

In pursuit of more inclusive vision-language models (VLMs), this study introduces a Large multilingual multimodal model called \textsc{palo

vision-language models multilingual multimodal model palo multilingual benchmark visual reasoning capabilities

发现论文，激发创造

PaLI: 一个共同缩放的多语言语言图像模型

PaLI 是一种简单、模块化和可扩展的神经网络模型，利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模，并在多种语言的情况下生成文本并完成多模态任务，此外，通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务，实现了多项视觉和语言任务的最新水平。

Sep, 2022

PaLI-X: 多语言视觉与语言模型的扩展

PaLI-X 是一种多语言视觉和语言模型，在组件大小和训练任务混合的广度方面进行了扩展，实现了对各种各样复杂任务的新水平的性能提升，涵盖图像字幕、问题回答、图像文档理解、物体检测、视频问题回答和视频字幕等。

May, 2023

PolyLM: 一个开源的多语种大语言模型

PolyLM 是一个多语言大型语言模型，经过课程学习和自我指导方法的预训练，可以在多种不同语言的多语言理解、问答、生成和翻译任务上获得比其他已有模型更好的表现。

Jul, 2023

PaLI-3 视觉语言模型：更小、更快、更强

PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势，但在各种多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究，并推动新一代扩展模型的发展。

Oct, 2023

PaLM-E：一个实体多模语言模型

研究提出了一种具有体感的语言模型，其可以将现实世界的传感器和语言模型直接结合起来，从而实现语言和感知之间的链接，并且在多个机器人任务、图像问题解答和字幕生成等方面取得了良好的表现。

Mar, 2023

AudioPaLM：一种可以说话和听取的大型语言模型

AudioPaLM 结合了 PaLM-2 和 AudioLM 两种语言模型，实现了对文本和语音的处理和生成，在语音识别和语音翻译等应用中具有优异性能，并且具有零 - shot 语音到文字翻译的能力。

Jun, 2023

Paloma: 评估语言模型贴合度的基准

通过测量语言模型对 585 个文本领域（从 nytimes.com 到 Reddit 上的 r/depression）的适应程度，本论文介绍了一种名为 Paloma 的语言模型评估方法，并使用基于指导方针的可比性组织结果，用于比较效率与成本的帕累托效率分析，还分析了预训练对不同领域适应性的影响。

Dec, 2023

Sabiá：葡萄牙语大语言模型

在这篇论文中，我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型，并在 14 个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明，从单语预训练获得的大多数收益来自于领域特定知识。

Apr, 2023

波斯思维：一个跨语言的波斯 - 英语大语言模型

通过在 LLaMa2 的词汇表中添加 10,000 个波斯语标记并在包含近 20 亿波斯语标记的数据集上进行训练，我们展示了我们的方法既保留了模型的英语知识，又利用了迁移学习在不同语言之间传递任务知识的优势。

Jan, 2024

翻译困境：大型语言模型在非英语内容分析中的应用

本文介绍了多语种语言模型的工作原理及其在语言分析和生成方面的能力和局限性，并提供了关于开展大型和多语种语言模型研究、开发和部署时的建议。

Jun, 2023