循环神经网络语言建模的知识蒸馏与信任正则化
本论文调查了循环神经网络语言模型(RNNLMs)的规模特性,对在GPU上训练非常大的RNN的方法进行了讨论,并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高,但相比于N元模型,RNNLMs在标准测试中得到了更低的困惑度。此外,我们训练了目前已知的最大RNN,并在ASR任务上表现出18%的相对词误差率提升,在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的1 BLEU点表现提升以及词预测方面的17%相对命中率提高。
Feb, 2015
本文提出了一种新的循环神经网络体系结构Recurrent Memory Network(RMN),不仅能够放大循环神经网络的作用,而且有助于我们理解其内部功能并发现数据中的潜在模式。在语言建模和句子完成任务上展示了RMN的强大性能。在长句完成挑战中,RMN的准确性为69.2%,超过了以前的最新技术水平。
Jan, 2016
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单RNN模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多26倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019
本文通过实验发现,知识蒸馏可以降低数据集的复杂度,帮助非自回归机器翻译模型 NART 更好地建模输出的变化,提高翻译质量,并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能,达到了最先进的性能水平。
Nov, 2019
本文研究了将知识从一个训练规模较大的教师模型转移到较小的学生模型中的知识蒸馏技术,在LibriSpeech / LibriLight公共数据集(60k小时)和我们公司的内部数据(600k小时)上对大规模RNN-T模型的软目标和硬目标蒸馏进行了比较,发现当教师和学生具有不同的架构(如大教师和小流式学生)时,硬目标更有效。此外,软目标蒸馏在自训练场景(如迭代大型教师训练)中效果更好。通过使用软目标蒸馏进行Noisy Student训练,成功在LibriSpeech上实现了新的SoTA词误率(dev-other上8%的相对改进),并允许我们的生产教师不断适应新的数据域。
Oct, 2022
本研究探讨了一种Knowledge Distillation的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能,同时在Plagiarism Detection方面也有了更好的表现。
Jan, 2023
研究使用知识蒸馏来训练循环神经网络转录器模型的限制,并探讨如何有效地从不同质量的ASR教师中蒸馏知识。我们发现,全加和蒸馏方法在RNN-T模型中表现最佳,特别是在针对质量差的教师时,另外我们还提出了一种变体的全加和蒸馏方法,提高了WRE。
Mar, 2023
本文提出了一种选择性知识蒸馏技术,通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标,并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能,在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明,我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡,取得了出色的性能。进一步的分析表明,只通过 5% 的原始翻译数据,就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。
Mar, 2023