小型语言模型性能下降的原因：通过 Softmax Engular 点探究语言模型饱和现象

Apr, 2024

小型语言模型性能下降的原因：通过 Softmax Engular 点探究语言模型饱和现象

Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck

Nathan Godey, Éric de la Clergerie, Benoît Sagot

TL;DR在语言建模中，研究人员发现较小的模型在训练后期可能会出现饱和现象，其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配，由此导致线性预测头的性能下降。实验结果表明，隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示，从而导致评估性能降低。

Abstract

Recent advances in language modeling consist in pretraining highly parameterized neural networks on extremely large web-mined text corpora. Training and inference with such models can be costly in practice, which

language modeling neural networks saturation softmax bottleneck evaluation performance

发现论文，激发创造

打破 Softmax 瓶颈：高级 RNN 语言模型

本文将语言模型制定为矩阵分解问题，证明了基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受到 Softmax 瓶颈的限制，指出在实践中，带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题，并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果，分别达到了 47.69 和 40.68 的困惑度。而且，该方法也在大规模的 1B Word 数据集上表现出色，在困惑度上优于基线 5.6 个点以上。

Nov, 2017

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022

阅读就是信仰：重新审视语言瓶颈模型对图像分类的作用

通过将现代图像描述器与预训练的语言模型相结合，语言瓶颈模型在灾害图像分类任务中能够超过黑盒模型的分类准确率，并且通过融合两者可以产生协同效应，进一步提高分类准确率。

Jun, 2024

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中 pre-training 效果的影响，发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果，并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时，研究了 downscaling effects，并且观察到 FLOPs 小于 $2.2×10^{15}$ 时，MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

大规模预训练的极限探索

通过调整数据规模、模型大小和训练时间，提高预训练的准确性可以有利于大多数下游任务的表现，但是当上游准确度提高时，下游任务的表现会饱和，并且与上游和下游任务的性能呈非线性关系，因此需要对下游性能建立一个模型以反映这种饱和现象。

Oct, 2021

通过可学习的单调逐点非线性性消除 Softmax 瓶颈

提出一种在 softmax 函数之上学习参数单调函数的方法，理论上和实验上都优于传统的 line-softmax 方法，在自然语言模型的应用方面具有潜在的可拓展性。

Feb, 2019

Sigsoftmax：Softmax Engpass 的重新分析

该论文提出了一种输出激活函数 sigsoftmax 用于解决神经网络语言建模中的 softmax 瓶颈问题，它由指数函数和 sigmoid 函数的乘积构成，相对于 softmax 和混合 softmax，在语言建模实验中表现更好。

May, 2018

基于有限领域数据的廉价推理专用语言模型

大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性，但具有挑战性。本研究规范了这些约束，并区分了四个重要变量：预训练预算（用于在目标领域之前进行训练）、专业预算（用于在目标领域之后进行训练）、推理预算和领域内训练集的大小。在这些设置中，我们比较了机器学习文献中的不同方法。受到推理成本的限制，我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是，我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度，而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。

Feb, 2024

预训练语言模型在少样本微调中的问题

本文旨在解释提高小样本下的预训练语言模型的性能，发现未 fine-tune 的预训练模型表现出强烈的预测偏差，而 fine-tune 可以缓解预测偏差并展现出更好的性能，但研究还在探讨如何平衡预测行为和开发有利于小样本学习的模型评估方法。

Apr, 2022

大型神经网络浪费容量

该研究发现，一些较大的神经网络在增加容量以减少欠拟合方面失败，这可能是由于训练误差方面容量的收益急剧减少导致的，指出了优化方法（一阶梯度下降）在这种情况下失败。通过直接解决这个问题，可以通过优化方法或参数化选择来改善需要大容量的大型数据集上的泛化误差。

Jan, 2013