Adam: 自适应暗示例的密集检索蒸馏
本研究探讨如何使用知识蒸馏从黑盒模型中训练神经网络进行视觉识别,使用混合和主动学习等方法,从而在节省计算和数据集成本的同时保持高性能。
Mar, 2020
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
本文介绍了一种名为Progressive Knowledge Distillation的技术,通过模仿教师模型的训练轨迹,改善了知识蒸馏中的“容量差距问题”(capacity-gap problem)和“检查点搜索问题”(checkpoint-search problem),在不同的任务(如图像分类、自然语言理解等)中,与最先进的技术相比,实验结果始终保持更好的表现。
Oct, 2021
提出了一种名为DR-KD的简单而有效的知识蒸馏框架,通过在传统训练中动态调整目标来使学生变成自身的教师,并在蒸馏信息时进行错误更正,从而消除了笨重的教师模型的必要性,并在需要分类或对象识别的任何深度神经网络训练中均可使用,能够在不增加额外训练成本的情况下较其他知识蒸馏方法显著提高Tiny ImageNet测试准确性2.65%。
Jan, 2022
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本篇研究提出了在两种不同类型的ranker模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
本文中,我们提出了一个简单的基线方法,使用不对称架构来提高Dual Encoder检索器的效率。我们发现即使使用只有两层的BERT-based查询编码器,通过无监督的蒸馏和适当的学生初始化,仍然可以在BEIR基准测试中保持92.5%的DE性能。我们希望我们的研究可以鼓励社区重新评估方法复杂性和性能提升之间的权衡。
Jun, 2023