以 0.1% 的额外计算能力超越比例定律

Oct, 2022

以 0.1% 的额外计算能力超越比例定律

Transcending Scaling Laws with 0.1% Extra Compute

Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So...

TL;DRUL2R method improves scaling properties of language models with minimal extra compute, demonstrating emergent abilities on challenging BIG-Bench NLP tasks, and outperforming PaLM on many few-shot setups.

Abstract

scaling language models improves performance but comes with significant computational costs. This paper proposes ul2r, a method that subst

language models scaling ul2r computational cost nlp

发现论文，激发创造

PaLM: 基于路径的语言建模规模化

通过使用 Pathways ML 系统训练 PaLM，我们证明了模型规模对少样本学习的影响，PaLM 540B 在大量语言理解、生成基准测试中取得了突破性表现，并在多步推理任务中超越了微调表现，另外还有强大的多语种任务和源代码生成能力，以及对偏差和毒性的全面分析。

Apr, 2022

UL2: 统一语言学习范式

提出一个统一框架的预训练模型，通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合，将不同的预训练范例结合在一起，对于多个不同领域的数据集都具有普适性，并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。

May, 2022

PaLM 2 技术报告

PaLM 2 是个新的最先进的语言模型，比其前身 PaLM 在多语言和推理能力方面更具优势，同时也更加计算效率高。通过在英语、多语言和推理任务上的全面评估，我们证明了 PaLM 2 在不同模型大小的下游任务上的质量显著提高，同时推理速度更快、更高效，这提高了交互的自然节奏。因此，PaLM 2 达到了各种任务和能力的最先进水平。

May, 2023

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

大规模跨语言无监督表示学习

通过在 100 种语言上使用超过 2TB 的 CommonCrawl 数据对基于 Transformer 的掩蔽语言模型进行大规模的预训练，该模型命名为 XLM-R，显著优于 mBERT，在跨语言基准测试中实现了 + 14.6％和 + 13％的平均准确性和 F1 分数，并改善了 10 个低资源语言的准确性，显示了前景。

Nov, 2019

大型语言模型在扩展口语理解系统到新语言方面的应用

介绍了一种使用大型语言模型进行机器翻译的流水线，用于扩展语音助手系统的口语理解模型，提高了多语言场景和设备本地场景下的整体准确率。

Apr, 2024

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时，研究了 downscaling effects，并且观察到 FLOPs 小于 $2.2×10^{15}$ 时，MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

SOLAR 10.7B: 大规模语言模型的简单有效深度缩放

引入深度上采样（DUS）技术，一种简单高效的基于语言模型（LLM）的升级技术。采用 DUS 构建 SOLAR 10.7B，一个具有 107 亿参数、在自然语言处理任务中展现出卓越性能的大型语言模型（LLM）。相比于现有开源预训练的 LLM（如 Llama 2 和 Mistral 7B），SOLAR 10.7B 具有更好的性能。此外，我们还提出了 SOLAR 10.7B-Instruct，一个为了指令遵循能力而进行微调的变体，超过了 Mixtral-8x7B。SOLAR 10.7B 以 Apache 2.0 许可证的形式公开，促进其在 LLM 领域的广泛应用和获取。

Dec, 2023

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023