自适应神经网络：应用于 n-gram 语言模型

EMNLPAug, 2015

自适应神经网络：应用于 n-gram 语言模型

Auto-Sizing Neural Networks: With Applications to n-gram Language Models

Kenton Murray, David Chiang

TL;DR本文介绍一个通过正则化方法对神经网络进行自动调整的算法，此算法可以用于选择神经网络中隐藏层单元的数量，同时用于语言模型和机器翻译中保持了困惑度，使得更小的神经网络可以维持 unpruned 版本的显著改进。

Abstract

neural networks have been shown to improve performance across a range of natural-language tasks. However, designing and training them can be complicated. Frequently, researchers resort to repeated experimentation

neural networks training hidden units language modeling machine translation

发现论文，激发创造

自适应调整 Transformer 网络：提高低资源机器翻译的速度、效率和性能

本文介绍的机器翻译模型基于 Transformer，通过自动调整网络架构和超参数来提高 BLEU 分数，其中引入了自动调整网络大小的正则化方法，能够在删除网络中的神经元的同时减少模型的参数数量。

Oct, 2019

非参数神经网络

本文使用非参数方法研究神经网络中自动寻找最佳规模的问题，提出了一种使用 Lp 惩罚项限制增长的方法，并使用 AdaRad 优化算法进行训练，取得了良好的结果。

Dec, 2017

自扩展神经网络

我们通过自然梯度的方法，动态地扩展神经网络的宽度和深度，以降低训练过程中的损失。对于不确定合适的网络架构尺寸的问题，我们提出了一种自动收缩神经网络的方法。

Jul, 2023

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

神经网络时代中的 $n$-gram 平滑作用

该论文重新探讨了在神经语言模型时代中经典的 $n$-gram 平滑技术可能发挥的作用，通过正则化技术将任何 $n$-gram 平滑技术转化为与神经语言模型兼容的约束，实证结果表明我们的新颖正则化技术在语言建模和机器翻译中与标签平滑技术相比具有可比性甚至有时表现更好。

Mar, 2024

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

轻量级自适应神经网络与 N-gram 语言模型混合

本文介绍了一种通过小型神经网络来预测混合模型权重的方法，以提高神经语言模型和 n 元语法模型的性能。实验结果表明，该方法能显著提高 One Billion Word benchmark 上的性能。

Apr, 2018

神经语言模型修剪用于自动语音识别

我们研究了应用于基于 Transformer 的语音识别神经网络语言模型的模型修剪方法。我们探究了修剪框架的三个方面，即准则、方法和调度器，分析了它们在准确性和推理速度方面的贡献。除此之外，我们提出了一种适用于渐进式压缩模型、并可以交付多个具有不同目标尺寸的模型的低秩逼近的变体。我们的研究结果包括：a）在多种场景中，数据驱动的修剪效果优于基于幅度的修剪；b）渐进式修剪相比一次性修剪在准确性方面有更好的表现，特别是在目标尺寸较小时；c）对于中等压缩程度，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

Oct, 2023

太大而无法失败：较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

神经网络的内在评估指标，困惑度（PPL），被广泛用于理解自回归神经语言模型（NLMs）的行为。该研究探索了一种新型的双向注意力头切除方法，其呈现了与人脑研究中认知和大脑储备概念相关的特性，暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。

Jun, 2024

移动设备神经语言模型自适应修剪

本文通过在 quasi-recurrent neural networks (QRNNs) 基础上应用剪枝技术来提供一种选择不同操作点的 “旋钮”，并提出一种使用可忽略量的内存恢复一些 perplexity 的简单技术，并在树莓派上考虑 perplexity 和能耗两方面的实证评估，证明了哪种方法能提供最佳的 perplexity - 能耗操作点，其中一种技术能够在一个操作点上相对于现有技术，提供 40％的能量节省和仅 17％的相对 perplexity 增加。

Sep, 2018