基于 n-best 重排序的精准知识蒸馏

May, 2023

基于 n-best 重排序的精准知识蒸馏

Accurate Knowledge Distillation with n-best Reranking

Hendra Setiawan

TL;DR在 WMT21 德英翻译任务上，我们提出了一种通过 n-best 重新排序来扩展顺序级知识蒸馏的方法，以考虑不仅仅是第一顶假设，而且还要考虑教师模型的前 n 个顶假设，利用一组多样化的模型，包括公开可用的大型预训练模型，为训练学生模型提供更准确的伪标签，使得学生模型的参数数量要少几个数量级，但是可以获得与 Tran 等人使用 47 亿个参数的大型转换模型相当的准确性。

Abstract

We propose extending the sequence-level knowledge distillation (Kim and Rush, 2016) with n-best reranking to consider not only the top-1 hypotheses but also the top n-best hypotheses of →

sequence-level knowledge distillation n-best reranking teacher models pseudo-labels translation task

发现论文，激发创造

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

神经机器翻译的选择性知识蒸馏

该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析，提出了批级和全局级别的样本选择策略来优化知识蒸馏，实验结果表明，该方法在 WMT'14 英语 -> 德语和 WMT'19 中文 -> 英语机器翻译任务中提高了机器翻译的 BLEU 得分。

May, 2021

为何跳过合并：一种用于中间层的简单知识蒸馏技术

本研究提出一种新颖的神经机器翻译知识蒸馏技术，通过层级监督，将大型准确的老师网络的知识注入到小巧的学生网络中，以适应边缘设备上内存约束的低资源环境。实验表明，采用该技术，学生网络的参数数量减少了 50％，仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。

Oct, 2020

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

XtremeDistil：大规模多语言模型的多阶段蒸馏

本研究聚焦于多语言实体识别，探究知识蒸馏压缩预训练语言模型的多种策略，通过利用教师模型内部表示的分阶段优化方案，成功将 MBERT 模型压缩了 35 倍参数，51 倍批量推理的延迟，同时保持在 41 种语言中的 95％的 F1 分数。

Apr, 2020

异构模型的 Top-K 推荐中的蒸馏

本研究提出了一种名为 HetComp 的知识蒸馏框架，用于将异构模型的整体知识转移给一个轻量级模型，以减少资源成本和推理延迟，该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息，并通过全面实验表明该框架能够显著提高精度和泛化性能。

Mar, 2023

使用 Wasserstein 知识蒸馏提高神经主题模型

本文提出了一种知识蒸馏框架，以压缩具有大内存占用的上下文化主题模型，而不会在主题质量上造成损失，并在两个公开数据集上进行实验以证明其有效性。

Mar, 2023

哪个学生最好？针对任务特定 BERT 模型的综合知识蒸馏考试

本文研究使用知识蒸馏从 BERT 模型到各种学生模型（BiLSTM、CNN、BERT-Tiny、BERT-Mini 和 BERT-Small）对印尼语文本分类和序列标记进行实验研究，提出了效率高的知识蒸馏训练机制，并发现使用 BiLSTM 和 CNN 学生模型可以在性能和计算资源方面提供最好的平衡。

Jan, 2022