强化多教师选择的知识蒸馏

AAAIDec, 2020

Reinforced Multi-Teacher Selection for Knowledge Distillation

Fei Yuan, Linjun Shou, Jian Pei, Wutao Lin, Ming Gong...

TL;DR本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Abstract

In natural language processing (NLP) tasks, slow inference speed and huge footprints in GPU usage remain the bottleneck of applying pre-trained deep models in production. As a popular method for model compression

natural language processing model compression knowledge distillation teacher models reinforcement learning

发现论文，激发创造

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

针对知识蒸馏的学生友好型教师网络学习

本文提出一种新颖的知识蒸馏方法，该方法旨在学习对学生友好的教师模型以实现知识传递，并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。

Feb, 2021

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

多教师助理指导的密集知识蒸馏

本文提出一种基于多个 teacher assistant 的密集引导知识蒸馏方法，通过逐渐减小模型大小有效地弥合 teacher 和 student 之间的巨大差距，实现了对 student 的更高效学习，并在 CIFAR-10、CIFAR-100 和 ImageNet 上的多个 backbone 架构中取得了显著的性能提升。

Sep, 2020

教辅辅助下的知识蒸馏改进

本论文针对深度神经网络过于庞大以至于不能部署在移动设备等边缘设备的问题，提出了一种基于知识蒸馏的网络压缩方法。然而，该论文表明，如果学生网络与教师网络之间的差距太大，那么知识蒸馏的性能会下降；为此，该论文提出了一种多步知识蒸馏的方法，通过使用一个中等大小的网络（即教师助手）来弥补学生与教师之间的差距，并通过对 CIFAR-10,100 和 ImageNet 数据集进行广泛的实验证明了该方法的有效性。

Feb, 2019

异构模型的 Top-K 推荐中的蒸馏

本研究提出了一种名为 HetComp 的知识蒸馏框架，用于将异构模型的整体知识转移给一个轻量级模型，以减少资源成本和推理延迟，该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息，并通过全面实验表明该框架能够显著提高精度和泛化性能。

Mar, 2023