本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
本研究实现了一种多级知识蒸馏方法,将自监督学习与基于语言模型的强制学习相结合,以生成新颖的 OoD 检测方案,并在多个基准数据集上实现了最新的性能。
Nov, 2022
研究使用知识蒸馏来训练循环神经网络转录器模型的限制,并探讨如何有效地从不同质量的 ASR 教师中蒸馏知识。我们发现,全加和蒸馏方法在 RNN-T 模型中表现最佳,特别是在针对质量差的教师时,另外我们还提出了一种变体的全加和蒸馏方法,提高了 WRE。
Mar, 2023
本研究提出了一种名为 Referee 的句子摘要框架,可无需金标准摘要进行训练,同时允许直接控制压缩比率。通过符号知识蒸馏的概念框架,从预训练语言模型中提炼潜在知识,进一步纯化、过滤和迭代,创造了高质量的数据集和摘要模型,大幅提升了摘要的可控性和压缩效率。
Oct, 2022
本文介绍了一种基于🈚️ground truth summaries 的情况下,利用文档创建合成数据集、引入多种噪声生成函数以及学习生成原始评论的摘要模型的方法,该方法比抽取式和生成式基线模型都有更好的效果。
Apr, 2020
InfoSumm 是一种基于信息理论目标的新型框架,通过互信息来蒸馏出一个强大的摘要器,不依赖于大规模语言模型的能力或人工编写的参考文献,参数仅为 568M,性能竞争力强,在人工评估中超过了领域内监督模型,更胜一筹于 ChatGPT 的可控摘要。
Mar, 2024
通过自知力蒸馏方法,有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题,并通过重新校准置信度,在生成更好的标签分布上取得了显著的改进。同时,该方法相对于现有方法在训练模型时更高效,无需额外的训练过程来完善标签分布。
Jun, 2024
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
借助知识蒸馏技术,我们提出了一种新的两步法来压缩 Tiny 语音增强模型,其中包括先用知识蒸馏目标进行预训练,然后切换到完全监督训练模式,同时提出了一种新的细粒度相似性保持 KD 损失函数,该方法在高压缩和低信噪比条件下表现出突出的改进,相对于基线,在输入信噪比为 - 5dB 和 63 倍压缩的情况下,信噪失真比分别提高了 0.9dB 和 1.1dB。
Sep, 2023
通过提出一个三组件框架,利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号,我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明,相较于没有任何信号进行微调的情况,我们提出的两阶段框架平均带来了 20.79% 左右的相对提升,适用于四个复杂推理任务。