数据增强对知识蒸馏的影响
使用序列级知识蒸馏技术在数据增强和正则化的前提下训练较小的机器翻译模型,可实现类似于基准 SLKD 的结果,并显著提高 BLEU 分数。
Dec, 2019
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
本研究提出了两种新颖的方法,知识调整(KA)和动态温度蒸馏(DTD),用于惩罚错误监督并改善学生模型,实验表明该方法在各种评测数据集上,以及与其他基于知识蒸馏的方法相结合时,都能获得鼓舞人心的表现。
Nov, 2019
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
Apr, 2024
本文提出了一种名为 AugPro 的数据增强方法,通过在表示插值增强方法的基础上构建数据的多样性,并将增强数据转换为标记来避免转移决策边界,提高了蒸馏的性能并在计算效率上具有优势。
Oct, 2022
本文介绍了一种基于知识蒸馏的方法和使用语言模型创建任务特定无标签数据增强来提高模型在 NLI 任务中的性能,在 out-of-distribution 方面的表现超过以前的方法。通过 Distilled Minority Upsampling 来鲁棒性提高了 SNLI-hard 的表现。
May, 2023
该论文提出一种基于交叉领域数据增强的 BERT 知识蒸馏方法,借助资源丰富的源域来自动优化增强策略和提高学生模型性能,实验证明该方法优于现有方法,且在数据稀缺领域中,即使只有少量标记样本,压缩后的学生模型性能也能优于原始的大型教师模型。
Jan, 2021
本文提出了一种元知识蒸馏(MKD)方法,利用可学习的元温度参数进行元学习,通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏(KD)的退化问题,从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。
Feb, 2022
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023