使用紧密耦合的教师将密集表示提炼为排名
该研究探讨了如何提高基于 BERT 和非 BERT 的不同命令匹配体系结构的目标性能,提出了一种跨体系结构教授的知识蒸馏过程,使用 Margin-MSE 损失相对输出分数进行适应,从而显著提高再排序效果。同时,研究发布了教师 - 分数培训文件的软件包,以造福社区。
Oct, 2020
本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本文提出了通过知识蒸馏从内部表示来压缩 BERT 这样的大型模型,并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是,与仅使用软标签蒸馏相比,从内部表示来蒸馏是更强大的方法。
Oct, 2019
将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型,并在单句文本分类任务中表明,这些 Student 模型平均保留了 97%的 RoBERTa-Large Teacher 性能,同时在 GPU 和 CPU 上推理时间获得高达 600 倍的加速,同时对于句子对分类任务和域泛化设置也具有帮助。
Oct, 2021
该研究比较了两种知识蒸馏模型在文档排序任务中的有效性并对 TinyBERT 模型进行了两种简化,结果显示出这些简化不仅能够提升 TinyBERT 的性能,而且还可以在提供 15 倍速度提升的同时显著优于 BERT-Base。
Sep, 2020
本研究提出了一种基于中间层对比蒸馏的知识蒸馏框架(CoDIR),通过区分正样本和大量负样本,使学生模型通过中间层更好地提取和压缩教师模型的知识,该方法在 GLUE 基准测试中表现优异。
Sep, 2020
在 WMT21 德英翻译任务上,我们提出了一种通过 n-best 重新排序来扩展顺序级知识蒸馏的方法,以考虑不仅仅是第一顶假设,而且还要考虑教师模型的前 n 个顶假设,利用一组多样化的模型,包括公开可用的大型预训练模型,为训练学生模型提供更准确的伪标签,使得学生模型的参数数量要少几个数量级,但是可以获得与 Tran 等人使用 47 亿个参数的大型转换模型相当的准确性。
May, 2023
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多 26 倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019