权重蒸馏：神经网络参数知识的传递

ACLSep, 2020

权重蒸馏：神经网络参数知识的传递

Weight Distillation: Transferring the Knowledge in Neural Network Parameters

Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan Du...

TL;DR本文提出了一种称为 “Weight Distillation” 的方法，通过参数生成器传递大型神经网络参数中的知识，来实现模型加速和压缩，在三个机器翻译任务中取得了 “竞争性” 的性能表现，以及相比于知识蒸馏高出 0.51-1.82 BLEU 分数的性能。

Abstract

knowledge distillation has been proven to be effective in model acceleration and compression. It allows a small network to learn to generalize in the same way as a large network. Recent successes in pre-training

knowledge distillation model acceleration compresssion parameter generator machine translation

发现论文，激发创造

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

RNN-Transducer 模型的高效知识蒸馏

本文提出了一种针对 RNN-Transducer 模型的知识蒸馏方法，通过对模型剪枝的过程结合知识蒸馏，实现了对小型模型精度的提高。实验结果表明，通过此方法可以在多种数据集上获得较好的性能提升。

Nov, 2020

从弱教师进行知识蒸馏以提高预训练语言模型的规模研究

本文通过实验探究了 Distillation from Weak Teacher (DWT) 在 NLP 预训练中的最佳使用条件，主要涉及教师模型质量、DWT 损失权重值调整指南和参数重新映射技术对学生模型初始化的影响。

May, 2023

知识蒸馏：综述

该论文从知识分类、训练方案、教师 - 学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

神经机器翻译的集成蒸馏

论文介绍了基于知识蒸馏的神经机器翻译方法，并探讨了如何快速训练单个 NMT 系统，以获得来自多个教师网络的同等翻译质量，通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。

Feb, 2017

知识蒸馏的关键因素剖析

知识蒸馏是一种模型压缩和性能提升的技术，在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用，验证了有关这些因素对知识蒸馏影响的假设，同时提出了一种新颖的优化蒸馏方法，实现了最先进的翻译性能，推动了神经机器翻译领域的发展。

Dec, 2023

利用知识蒸馏压缩多语言神经机器翻译模型的实证研究

本文探讨了如何通过知识蒸馏来压缩 MNMT 模型，发现这是一项具有挑战性的任务，并提出了一些设计思考和优化方案。

Apr, 2023