BriefGPT.xyz
大模型
Ask
alpha
关键词
adaptive knowledge distillation
搜索结果 - 2
AdaKD:使用自适应损失加权的 ASR 模型动态知识蒸馏
本文提出了一种自适应知识蒸馏技术,通过课程学习的启发,以实例级别自适应地加权损失,并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。
PDF
2 months ago
异构联邦学习中的局部全局知识蒸馏与非独立同分布数据
该论文提出一种名为 FedGKD 的新方法,通过融合历史全局模型的知识进行本地训练,解决异构联邦学习中的客户端漂移问题,并在各种计算机视觉和自然语言处理数据集上进行广泛的实验和评估,达到了优于其他五种方法的结果。
PDF
3 years ago
Prev
Next