教师到学生知识迁移的嵌入式压缩

Feb, 2024

教师到学生知识迁移的嵌入式压缩

Embedding Compression for Teacher-to-Student Knowledge Transfer

Yiwei Ding, Alexander Lerch

TL;DR使用可压缩的嵌入模块来改进知识蒸馏方法，以提高分类性能并增强学生模型的泛化能力。

Abstract

Common knowledge distillation methods require the teacher model and the student model to be trained on the same task. However, the usage of embeddings as teachers has also been proposed for different source tasks and target tasks. Prior work that uses embeddings as teachers ignores the

knowledge distillation embedding compression classification performance unsupervised teacher embeddings generalizability

发现论文，激发创造

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

通过特征嵌入学习学生网络

本文提出了一种基于特征嵌入的新型教师 - 学生模型，使用局部保持损失函数优化低维特征生成，从而避免引入额外参数，通过实验证明该方法计算和存储复杂度均优于现有教师 - 学生模型。

Dec, 2018

句向量排序模型的极端压缩：在边缘设备上实现更快的推理、更长的电池续航和更少的存储

本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法，包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明，采用这些扩展技术的学生模型具有极大的压缩程度，而且在测试数据集上表现出高度的有效性和能用性。

Jun, 2022

对抗性网络压缩

本研究介绍了一种通过对抗网络压缩方法实现从深层精确的模型向更小的模型中转移知识的方法，该方法不需要使用标签进行训练，并在不同的师生模型上泛化；在五个固定的标准数据集上进行广泛的评估表明，该学生模型准确率略有下降，而且性能比其他知识传输方法更好，并且超越了同一网络在使用标签训练时的性能，并且对比其他压缩策略的表现也达到了现有的最佳水平。

Mar, 2018

在线集成模型压缩技术 —— 基于知识蒸馏

本文提出了一种新颖的基于知识蒸馏的模型压缩框架，在学生集成中启用了同时学习的知识蒸馏，并在压缩的学生模型上蒸馏同时学到的集成知识，该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生，并且使用我们的框架，可以以高效和灵活的方式适应不同场景。实验结果表明，使用我们的框架，一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64％，类似地，一个压缩率达 95％的 DenseNet-BC （k = 12）模型相对精度提高了 8.17％。

Nov, 2020

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019

深度模型压缩：从带噪声的教师中提取知识

本研究通过引入基于噪声的正则项对深度学习模型压缩中的教师 - 学生框架进行扩展，以解决模型存储大小、运行时复杂度和训练时复杂度等问题，实验结果在 CIFAR-10 数据集上表现最佳，表明该方法在深度模型压缩方面有潜力。

Oct, 2016

CLIP-Embed-KD: 以嵌入向量作为教师的计算高效知识蒸馏

通过利用嵌入作为教师，我们扩展了 CLIP 用于高效进行知识蒸馏，初步结果表明，使用嵌入进行基于 CLIP 的知识蒸馏可以在使用少至 9 倍内存和 8 倍训练时间的情况下优于完整规模的知识蒸馏。

Apr, 2024

学生超越导师：基于师生模型的词嵌入蒸馏与集成学习

本文提出了一种新的嵌入蒸馏框架，使词嵌入的维度显著降低但不影响准确性，并介绍了使用多个教师模型训练高效的学生模型的新型蒸馏集成方法。通过实验验证，在七个文本分类数据集上，该方法在大多数情况下均表现出比教师模型更好的性能，对词嵌入的变换进行了深入分析，并提出了使用神经模型进行融合的未来研究方向。

May, 2019

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020