从弱教师进行知识蒸馏以提高预训练语言模型的规模研究

ACLMay, 2023

从弱教师进行知识蒸馏以提高预训练语言模型的规模研究

A Study on Knowledge Distillation from Weak Teacher for Scaling Up Pre-trained Language Models

Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Sung Ju Hwang...

TL;DR本文通过实验探究了 Distillation from Weak Teacher (DWT) 在 NLP 预训练中的最佳使用条件，主要涉及教师模型质量、DWT 损失权重值调整指南和参数重新映射技术对学生模型初始化的影响。

Abstract

distillation from weak teacher (DWT) is a method of transferring knowledge from a smaller, weaker teacher model to a larger student model to improve its performance. Previous studies have shown that DWT can be effective in the vision domain and natural language processing (NLP) pre-tra

distillation from weak teacher knowledge transfer nlp pre-training teacher model quality parameter remapping

发现论文，激发创造

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

权重蒸馏：神经网络参数知识的传递

本文提出了一种称为 “Weight Distillation” 的方法，通过参数生成器传递大型神经网络参数中的知识，来实现模型加速和压缩，在三个机器翻译任务中取得了 “竞争性” 的性能表现，以及相比于知识蒸馏高出 0.51-1.82 BLEU 分数的性能。

Sep, 2020

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

知识蒸馏的关键因素剖析

知识蒸馏是一种模型压缩和性能提升的技术，在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用，验证了有关这些因素对知识蒸馏影响的假设，同时提出了一种新颖的优化蒸馏方法，实现了最先进的翻译性能，推动了神经机器翻译领域的发展。

Dec, 2023

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

近期师生学习研究综述

知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Apr, 2023

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

DisWOT: 无需训练的蒸馏学生架构搜索

本文提出了一种名为 DisWOT 的新方法，使用进化算法，在没有进行训练的情况下，以教师神经网络的相似度为依据来搜索出最优的学生神经网络结构，并且在知识蒸馏阶段大幅提高了模型性能。实验结果表明，该方法在不同的搜索空间中均取得了最先进的成果。

Mar, 2023