GPU 上高效的 softmax 近似算法
在本文中,我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法,在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练,通过在各种 NLP 任务中对前 k 个单词进行预测,实现了一个数量级更快的推理速度,例如在德语到英语的机器翻译任务中,与现有先进技术相比,我们实现了 20.4 倍的加速。
Oct, 2018
本研究系统比较了代表性的方法来表示和训练大词汇下的神经网络语言模型,包括 softmax、层级 softmax、自归一化等方法,并在三个流行的基准数据集上评估了每种方法在罕见词汇、速度 / 精度平衡以及与 Kneser-Ney 模型之间的互补性方面的表现。
Dec, 2015
介绍了一种对 softmax 概率的有效逼近方法,该方法基于一种严格的下界概率,可通过随机优化进行可扩展的估计,并演示了其在分类问题中的应用。
Sep, 2016
我们通过优化推测抽样方法来提高并行硬件加速器的采样速度,并通过并行计算矩阵、使用快速芯片内存存储中间结果以及对概率分布进行逼近的方法,显著改善了性能,但略微降低了准确性。
Jun, 2024
本文探讨了大型语言模型(LLMs)的 softmax 单元,在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用,同时提出并证明了一种基于贪心算法的 softmax 回归方法,为了在实践中使用此方法提供了理论支持。
Apr, 2023
本文提出一种简单的训练方法,通过从模仿数据分布的对抗模型中绘制负样本来大大增强梯度信号,以实现极端分类的高效训练,并在大规模数据集上实现了训练时间相对于几个竞争基线的数量级的减少。
Feb, 2020
本文深入分析了 Monte Carlo Dropout 方法和 softmax 方法的应用,发现虽然前者可以提供更好的不确定性估计,但后者可以在更低的计算成本下提供竞争力的不确定性估计,并且适合不具备大量计算资源的模型。
Oct, 2022
本文提出了一种通过聚类实现快速词汇投影的方法,以用于 GPU 上的多语言 transformers,结果显示在保持 BLEU 得分的同时,在浮点 GPU 推理速度上最高可提高 25%,并最高可提高 2.6 倍的词汇投影速度。
Aug, 2022
本文使用 Zero-th Order 算法针对 softmax 优化提出一个算法,通过使用该算法,我们的工作为复杂语言模型的优化技术的进展做出了贡献。
Jul, 2023
提出一种名为 Fast Graph Decoder (FGD) 的 softmax layer 近似算法,可快速识别给定上下文中最可能出现的 K 个单词,从而减少解码时间并保持接近全 softmax 基线准确率,在神经机器翻译和语言建模任务上证明了其有效性,同时也证明了其理论保证。
Jun, 2018