GPU 上高效的 softmax 近似算法

ICMLSep, 2016

Efficient softmax approximation for GPUs

Edouard Grave, Armand Joulin, Moustapha Cissé, David Grangier, Hervé Jégou

TL;DR文章提出了一种名为自适应 softmax 的算法，采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度，并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定，能够在保证高精度的同时显著提高计算速度。

Abstract

We propose an approximate strategy to efficiently train neural network based language models over very large vocabularies. Our approach, called adaptive softmax, circumvents the linear dependency on the

neural network language models adaptive softmax vocabulary size computational time

发现论文，激发创造

大词汇神经网络快速 Softmax 推理的筛选学习

在本文中，我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法，在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练，通过在各种 NLP 任务中对前 k 个单词进行预测，实现了一个数量级更快的推理速度，例如在德语到英语的机器翻译任务中，与现有先进技术相比，我们实现了 20.4 倍的加速。

Oct, 2018

大词汇神经语言模型的训练策略

本研究系统比较了代表性的方法来表示和训练大词汇下的神经网络语言模型，包括 softmax、层级 softmax、自归一化等方法，并在三个流行的基准数据集上评估了每种方法在罕见词汇、速度 / 精度平衡以及与 Kneser-Ney 模型之间的互补性方面的表现。

Dec, 2015

可扩展概率估计的一对多 Softmax 逼近

介绍了一种对 softmax 概率的有效逼近方法，该方法基于一种严格的下界概率，可通过随机优化进行可扩展的估计，并演示了其在分类问题中的应用。

Sep, 2016

优化的 GPU 硬件加速器的推测采样

我们通过优化推测抽样方法来提高并行硬件加速器的采样速度，并通过并行计算矩阵、使用快速芯片内存存储中间结果以及对概率分布进行逼近的方法，显著改善了性能，但略微降低了准确性。

Jun, 2024

基于注意力机制的 Softmax 回归

本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Apr, 2023

通过对抗性 Softmax 近似进行极值分类

本文提出一种简单的训练方法，通过从模仿数据分布的对抗模型中绘制负样本来大大增强梯度信号，以实现极端分类的高效训练，并在大规模数据集上实现了训练时间相对于几个竞争基线的数量级的减少。

Feb, 2020

文本分类中的 Softmax 不确定性逼近再探讨

本文深入分析了 Monte Carlo Dropout 方法和 softmax 方法的应用，发现虽然前者可以提供更好的不确定性估计，但后者可以在更低的计算成本下提供竞争力的不确定性估计，并且适合不具备大量计算资源的模型。

Oct, 2022

基于 GPU 的聚类快速词汇投影法用于多语机器翻译

本文提出了一种通过聚类实现快速词汇投影的方法，以用于 GPU 上的多语言 transformers，结果显示在保持 BLEU 得分的同时，在浮点 GPU 推理速度上最高可提高 25％，并最高可提高 2.6 倍的词汇投影速度。

Aug, 2022

Softmax 注意力优化的零阶算法

本文使用 Zero-th Order 算法针对 softmax 优化提出一个算法，通过使用该算法，我们的工作为复杂语言模型的优化技术的进展做出了贡献。

Jul, 2023

采用图表示法导航，快速可扩展解码神经语言模型

提出一种名为 Fast Graph Decoder (FGD) 的 softmax layer 近似算法，可快速识别给定上下文中最可能出现的 K 个单词，从而减少解码时间并保持接近全 softmax 基线准确率，在神经机器翻译和语言建模任务上证明了其有效性，同时也证明了其理论保证。

Jun, 2018