- ReffAKD: 资源高效的基于自编码器的知识蒸馏
提出了一种新方法来提高知识蒸馏效率,同时不需要资源密集的教师模型。通过使用紧凑的自动编码器提取特征并计算不同类别之间的相似度得分,然后对这些相似度得分应用 softmax 函数以获得软概率向量,这个向量在学生模型的训练中作为有价值的指导。在 - 通过标签修订和数据选择改进知识蒸馏
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
- 基于监督引导的零样本学习:一种无实际数据曝露的协同范式
在这份研究中,我们提出了一种创新的 SG-ZSL 范式,旨在解决数据隐私和模型版权等问题,该范式通过引入教师模型、学生模型和连接两者的生成器来促进高效协作,无需交换模型或敏感数据。在教师模型的指导下,学生模型通过匹配教师模型的性能并探索教师 - 对抗稀疏教师:利用对抗样本防御基于蒸馏的模型窃取攻击
通过在训练数据中结合稀疏输出与对抗样本,以增强教师模型对学生模型的防御,我们的研究引入了一种保护其输出的教师模型的方法,从而减少了对整体性能的影响。
- ACL迈向交叉标记器蒸馏:面向语言模型的通用逻辑蒸馏损失
通过使用基于最优传输的通用对数蒸馏(ULD)损失函数,我们解决了传统方法中教师模型和学生模型需共享分词器的限制,提供了一种跨不同架构和分词器进行蒸馏的有效方法,为蒸馏技术的广泛应用铺平了道路。
- 对大型语言模型对齐的 AI 反馈的关键评估
强化学习与 AI 反馈(RLAIF)是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题,即对于 AI 反馈来说,这个 RL 步骤的复杂性是否真的有必要。我们发现,RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论 - AAAI宽容专家的教师:与教师无关的无数据知识蒸馏
无数据知识蒸馏方法 (TA-DFKD)通过为生成器分配宽松的专家角色,而非严格的监督者角色,以更健壮和稳定的性能,实现了在各种教师模型下的蒸馏,并超越了现有的无数据知识蒸馏方法。
- AAAI合作式知识蒸馏:一种学生无关的方法
协作蒸馏(cooperative distillation)是一种新型的知识蒸馏方法,通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例,提供了一种有效的方式传递知识,用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优 - 黑暗面的知识:基于熵重新加权的知识蒸馏,以实现平衡的知识传递
利用熵重新加权的知识蒸馏 (ER-KD) 方法通过重新调整学生模型的关注点,减少对简单情况的侧重,从而实现在知识传递过程中更加平衡的效果。
- L2T-DLN:学习使用动态损失网络进行教学
此研究论文介绍了使用动态损失函数来指导学生模型训练的教师模型,通过设计带有记忆单元的教师模型,利用教师的经验引导学生学习,并通过动态损失网络利用损失的状态来增强教师和学生模型之间的交互,实验结果证明该方法可以提高学生模型的学习性能和在实际任 - 基于标记级关系图的知识蒸馏
论文提出了一种新的知识蒸馏方法,称为基于 Token 级关系图的知识蒸馏(TRG),它利用了 Token 水平的关联知识,从而实现了在视觉分类任务中比现有技术表现更好的知识迁移效果。
- MERT:音乐声学理解模型及大规模自监督训练
利用自监督学习方法,结合教师模型的音乐理解模型能够在大规模数据上,通过留声机和 Constant-Q Transform 等多种教师模型的指导,将 BERT-style transformer encoder 更好地应用于音乐领域,提升了音 - 短至长期轨迹预测知识蒸馏
本文提出了一种基于知识蒸馏的新的长期轨迹预测方法 Di-Long,使用教师网络生成短期预测轨迹并对学生网络进行规范化,从而实现对高时间区间内长期轨迹预测问题的解决,实验证明,该方法对长时预测有益,并在 Intersection Drone - 不要盲目模仿老师:使用扰动损失进行知识蒸馏
本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知 - EMNLP通过知识选择改进预训练语言模型的知识蒸馏
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
- 知识蒸馏的多码本向量量化索引预测
本文提出了一种新的多码本量化方法,将生成教师向量卡尺化成为一个编解码问题,实现了教师模型的向量压缩,以减少模型存储需求。在 LibriSpeech 数据集上,用该方法训练的学生模型能够获得与传统 KD 方法(l1, l2)相当的 ASR 性 - EMNLP硬门知识蒸馏 —— 利用校准实现强韧可靠的语言模型
在知识蒸馏中,我们探索了一个很少被关注的问题:什么时候蒸馏知识?我们提出了模型校准的概念,将教师模型视为不仅提供知识的源头,而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案,可以在教师模型和训练数据之间进行学习 - WWWPROD: 稠密检索的渐进式蒸馏
PROD 是一种高效的知识蒸馏方法,包括教师渐进式蒸馏和数据渐进式蒸馏,可用于稠密检索,实验结果表明,PROD 在知识蒸馏方法中达到了最佳性能。
- DiMS: 迭代非自回归变换器的多步精简
本文提出了一种叫做 Distill Multiple Steps 的简单而有效的蒸馏技术,它可以通过使用学生模型和教师模型,使得输出的质量得到提高,且能够减少到达特定翻译质量所需的步骤数。
- ACL针对段落检索的群体相关性标注
本文提出一种基于知识蒸馏的信息检索深度学习方法,通过设计一个简单但高效的教师模型,从复杂的教师模型中提取集体知识,加速训练并提高检索排序的性能。