无训练无收益：重拾用于基于 Transformer 的语言模型的高效训练算法

Jul, 2023

无训练无收益：重拾用于基于 Transformer 的语言模型的高效训练算法

No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models

Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J. Kusner

TL;DR本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题，并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。

Abstract

The computation necessary for training transformer-based language models has skyrocketed in recent years. This trend has motivated research on efficient training algorithms designed to improve training, validation, and downstream performance faster than standard training. In this work,

transformer-based language models efficient training algorithms dynamic architectures batch selection efficient optimizers

发现论文，激发创造

基于深度学习的大规模语言模型在自然语言处理任务中的效率优化

通过理论分析大规模语言模型的内部结构和操作机制，探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率，深入挖掘训练阶段的效率瓶颈，并详细评估自适应优化算法（如 AdamW）、大规模并行计算技术和混合精度训练策略对加速收敛和减少内存占用的贡献，同时系统地回顾了模型压缩技术的最新进展，侧重于量化、修剪和知识蒸馏等策略，通过比较这些技术的理论框架及其在不同应用场景中的效果，展示了它们在显著减小模型规模和推理延迟、同时保持模型预测准确性方面的能力，并且对当前效率优化方法的局限性（如过拟合风险、压缩后性能损失控制以及算法通用性问题）进行了批判性审查，提出了未来研究的一些展望，最终为理解大规模语言模型的效率优化提供了全面的理论框架。

May, 2024

语言模型的算法进展

自 2012 年至 2023 年，使用 Wikitext 和 Penn Treebank 的 200 多个语言模型评估数据集，我们发现为达到一定性能门槛所需的计算量每 8 个月减少一半，置信区间为 5 到 14 个月，远快于 Moore 定律关于硬件提升的速度。我们估计了增强的缩放定律，可以量化算法进展并确定缩放模型与训练算法创新的相对贡献。尽管算法进展迅速且新架构（如变压器）的发展，我们的分析显示在这段时间内计算量对整体性能改进的贡献更大。尽管受噪声基准数据限制，我们的分析量化了语言建模的快速进展，并阐明了计算量与算法的相对贡献。

Mar, 2024

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

Transformers 的高效预训练目标

本论文研究了 Transformer 模型的有效预训练目标，并探究了 ELECTRA 模型的若干新特性。结果表明，去除 mask token 以及全局损失计算有助于提升模型性能，同时参考 ELECTRA 模型的判别式方法可以更高效地训练 BERT-like 模型，并且这些方法受到超参数寻优的进一步改善。

Apr, 2021

预训练语言模型压缩和加速综述

该文章调查了预训练语言模型的压缩和加速方法，重点关注了模型在 NLP 领域推理阶段的表现，并提出为 NLP 的整个生命周期（包括数据准备、模型训练和推理）综合考虑计算、时间和碳排放的高效 NLP 研究。

Feb, 2022

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

大型语言模型的模型压缩与高效推理：调研

这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Feb, 2024

通过动态参数调整彻底改变大型语言模型训练

在大语言模型时代，提高计算资源的有效利用需求变得非常重要。本文基于 LoRA 精调方法，引入了一种新颖的参数高效训练技术，通过频繁改变可训练参数的一部分，提高了有效的预训练。我们的方法不仅在预训练阶段实现了内存和计算开销减少，与当前最先进的参数高效算法相当，而且保持了与完全预训练相当的准确性水平。我们提供了理论分析和实证证据来证明我们的方法的有效性。

Jun, 2024