自适应神经网络:应用于 n-gram 语言模型
本文介绍的机器翻译模型基于 Transformer,通过自动调整网络架构和超参数来提高 BLEU 分数,其中引入了自动调整网络大小的正则化方法,能够在删除网络中的神经元的同时减少模型的参数数量。
Oct, 2019
本论文调查了循环神经网络语言模型(RNNLMs)的规模特性,对在 GPU 上训练非常大的 RNN 的方法进行了讨论,并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高,但相比于 N 元模型,RNNLMs 在标准测试中得到了更低的困惑度。此外,我们训练了目前已知的最大 RNN,并在 ASR 任务上表现出 18% 的相对词误差率提升,在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。
Feb, 2015
该论文重新探讨了在神经语言模型时代中经典的 $n$-gram 平滑技术可能发挥的作用,通过正则化技术将任何 $n$-gram 平滑技术转化为与神经语言模型兼容的约束,实证结果表明我们的新颖正则化技术在语言建模和机器翻译中与标签平滑技术相比具有可比性甚至有时表现更好。
Mar, 2024
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
本文介绍了一种通过小型神经网络来预测混合模型权重的方法,以提高神经语言模型和 n 元语法模型的性能。实验结果表明,该方法能显著提高 One Billion Word benchmark 上的性能。
Apr, 2018
我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面,即准则、方法和调度器,分析了它们在准确性和推理速度方面的贡献。除此之外,我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括:a)在多种场景中,数据驱动的修剪效果优于基于幅度的修剪;b)渐进式修剪相比一次性修剪在准确性方面有更好的表现,特别是在目标尺寸较小时;c)对于中等压缩程度,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。
Oct, 2023
神经网络的内在评估指标,困惑度(PPL),被广泛用于理解自回归神经语言模型(NLMs)的行为。该研究探索了一种新型的双向注意力头切除方法,其呈现了与人脑研究中认知和大脑储备概念相关的特性,暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。
Jun, 2024
本文通过在 quasi-recurrent neural networks (QRNNs) 基础上应用剪枝技术来提供一种选择不同操作点的 “旋钮”,并提出一种使用可忽略量的内存恢复一些 perplexity 的简单技术,并在树莓派上考虑 perplexity 和能耗两方面的实证评估,证明了哪种方法能提供最佳的 perplexity - 能耗操作点,其中一种技术能够在一个操作点上相对于现有技术,提供 40%的能量节省和仅 17%的相对 perplexity 增加。
Sep, 2018