PaLM 2 技术报告

May, 2023

PaLM 2 Technical Report

Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin...

TL;DRPaLM 2 是个新的最先进的语言模型，比其前身 PaLM 在多语言和推理能力方面更具优势，同时也更加计算效率高。通过在英语、多语言和推理任务上的全面评估，我们证明了 PaLM 2 在不同模型大小的下游任务上的质量显著提高，同时推理速度更快、更高效，这提高了交互的自然节奏。因此，PaLM 2 达到了各种任务和能力的最先进水平。

Abstract

We introduce palm 2, a new state-of-the-art language model that has better multilingual and →

palm 2 language model multilingual reasoning capabilities compute-efficient

发现论文，激发创造

AudioPaLM：一种可以说话和听取的大型语言模型

AudioPaLM 结合了 PaLM-2 和 AudioLM 两种语言模型，实现了对文本和语音的处理和生成，在语音识别和语音翻译等应用中具有优异性能，并且具有零 - shot 语音到文字翻译的能力。

Jun, 2023

以 0.1% 的额外计算能力超越比例定律

UL2R method improves scaling properties of language models with minimal extra compute, demonstrating emergent abilities on challenging BIG-Bench NLP tasks, and outperforming PaLM on many few-shot setups.

Oct, 2022

激励 PaLM 进行翻译：评估策略和性能

本文探究了训练在多种语言但不是平行语料库上的大型语言模型（LLMs）在语言翻译方面的惊人能力，尤其是针对 Pathways 语言模型（PaLM）的表现最优。我们研究了选择翻译示例的各种策略，并得出结论，考虑到示例的质量是最重要的因素。通过优化的提示，我们重新评估了 PaLM 的机器翻译性能，并发现它的性能虽然令人印象深刻，但仍然落后于最先进的监督系统。我们最后提供了 PaLM 的机器翻译输出分析，揭示了一些有趣的特性和未来工作的前景。

Nov, 2022

PaLM: 基于路径的语言建模规模化

通过使用 Pathways ML 系统训练 PaLM，我们证明了模型规模对少样本学习的影响，PaLM 540B 在大量语言理解、生成基准测试中取得了突破性表现，并在多步推理任务中超越了微调表现，另外还有强大的多语种任务和源代码生成能力，以及对偏差和毒性的全面分析。

Apr, 2022

用于推理高效 LLMs 的串联变压器

使用 Tandem transformers 架构，通过将小型自回归模型与以块模式操作的大型模型结合，以提高预测准确性并加快推理速度。在预训练数据集上，Tandem 模型显示出对下一个标记预测准确性的 3.3％改进，相比于性能相当的 PaLM2-Otter 模型，速度提升了 1.16 倍，同时在维持相同下游任务准确性的前提下，通过将 Tandem 模型引入到推测解码框架中，以实现大幅加速（比使用单独的 PaLM2-Gecko 模型快约 1.14 倍）。

Feb, 2024

运用大型语言模型实现专业级医疗问答

Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.

May, 2023

PaLM2-VAdapter：渐进对齐语言模型构建强大的视觉语言适配器

我们的研究表明，渐进对齐语言模型能够有效地连接冻结的视觉编码器和大型语言模型。通过采用渐进对齐的语言模型作为视觉 - 语言适配器，我们的方法在收敛速度、性能和可扩展性方面都超过了现有的方法，并且使用的参数数量比现有的大规模视觉 - 语言模型减少了 30~70%，从而实现了显著的效率提升。

Feb, 2024

PaLM：一种混合的解析器和语言模型

PaLM 是一种混合的语法分析器和神经语言模型，旨在提高语言建模性能，并可用于无监督的成分句法分析，有助于语言建模性能的进一步提高

Sep, 2019

SQL-PaLM: 文本到 SQL 的改良大型语言模型自适应

本研究提出了一种基于大型语言模型的 Text-to-SQL 模型 SQL-PaLM，该模型在几种不同的任务测试中都取得了最优结果，并展示了其应用于现实场景的鲁棒性和智能能力。

May, 2023

PaLI-3 视觉语言模型：更小、更快、更强

PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势，但在各种多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究，并推动新一代扩展模型的发展。

Oct, 2023