加权平均改善领域偏移下的知识蒸馏
本文提出了一种基于 Stochastic Weight Averaging 的优化方法,用于改善预训练语言模型在 NLP 任务中的泛化能力,而无需额外计算成本,并展示了其在不同模型架构和任务中的出色表现。
Dec, 2022
本文提出了一种自适应知识蒸馏技术,通过课程学习的启发,以实例级别自适应地加权损失,并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。
May, 2024
该研究论文提出了一种新的逆概率加权蒸馏 (IPWD) 方法,用于解决知识蒸馏时两个领域之间数据分布不同的问题,该方法通过对样本的倾向得分估计进行加权,以弥补非独立同分布的数据中低频样本的不足,有效提高了知识蒸馏的准确度。
Oct, 2022
基于知识蒸馏,提出了一种新的单阶段方法 “不同领域之间的直接蒸馏”(4Ds),通过可学习的适配器和融合 - 激活机制,实现了从教师网络到学生网络的跨领域知识转移,取得了可靠的学生网络性能并超过了现有方法。
Jan, 2024
本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法,通过直接从教师模型继承权重实现对学生模型的压缩,避免了传统方法中需要设计额外对齐损失的问题,实验结果表明 WID 在 GLUE 和 SQuAD 基准测试上的性能优于现有的知识蒸馏方法,并且可以在没有对齐损失的情况下学习到教师模型的注意力模式。
May, 2023
本研究提出了一种基于适应样本加权和不确定性学习的智能知识蒸馏方法 PAD,用于改善学生网络的表现。通过 10 个师生组合在 6 个数据集上的测试,PAD 显着提高了现有蒸馏方法的性能,并优于最新的最先进的方法。
Aug, 2020
该研究旨在通过知识蒸馏和梯度滤波的方法提出一种简单而有效的训练策略以增强卷积神经网络在缺乏充足和代表性数据时的泛化能力,并通过多种任务的实验结果表明其有效性以及如何进一步提升深度神经网络的泛化能力。
Jul, 2021
知识蒸馏是从预训练教师网络中学习轻量级学生网络的方法,但现有方法在原始训练数据不可用时往往不可行。为解决这个问题,该文提出了一种名为 “不同分布知识蒸馏” 的新方法(KD$^{3}$),其包括三个组件:从互联网收集训练实例,通过教师网络和学生网络的综合预测动态选择有用的训练实例;对齐两个网络的特征和分类器参数进行知识记忆;新建一个对比学习块以生成具有新分布的扰动数据用于实例对齐。该方法在不同基准数据集上的实验表明,KD$^{3}$ 能够超越现有的无数据知识蒸馏方法。
Jul, 2023
本文提出了一种自适应多分布知识蒸馏(AMDKD)方案,通过利用来自多个已训练教师模型的知识来生成轻量级且更广义的学生模型,从而解决了现有神经方法在车辆路径问题上交叉分布泛化的问题,并展示了其优异的性能。
Oct, 2022
利用 BERT 预训练语言模型,结合领域适应性方法和知识蒸馏算法,提出了一种简单而有效的无监督领域适应方法,称为对抗适应与蒸馏,在 30 个领域对跨领域情感分类的任务中取得了最先进的性能。
Oct, 2020