文本摘要的嘈杂自知力蒸馏

Sep, 2020

Noisy Self-Knowledge Distillation for Text Summarization

Yang Liu, Sheng Shen, Mirella Lapata

TL;DR本文将自我知识蒸馏应用到文本摘要中，通过引入教师模型生成平滑标签以帮助正则化训练，同时使用多个噪声信号来更好地模拟不确定性，实验结果显示该框架提高了预先训练和非预先训练摘要器的性能，并达到了最先进的结果。

Abstract

In this paper we apply self-knowledge distillation to text summarization which we argue can alleviate problems with maximum-likelihood training

self-knowledge distillation text summarization maximum-likelihood training pretrained summarizers state-of-the-art results

发现论文，激发创造

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

多层知识蒸馏用于文本领域中的外部分布检测

本研究实现了一种多级知识蒸馏方法，将自监督学习与基于语言模型的强制学习相结合，以生成新颖的 OoD 检测方案，并在多个基准数据集上实现了最新的性能。

Nov, 2022

使用完整加和损失从带有噪声训练标签的 RNN-T 模型中进行鲁棒的知识蒸馏

研究使用知识蒸馏来训练循环神经网络转录器模型的限制，并探讨如何有效地从不同质量的 ASR 教师中蒸馏知识。我们发现，全加和蒸馏方法在 RNN-T 模型中表现最佳，特别是在针对质量差的教师时，另外我们还提出了一种变体的全加和蒸馏方法，提高了 WRE。

Mar, 2023

无需参考文献的句子摘要生成：通过符号知识蒸馏实现更精细的控制

本研究提出了一种名为 Referee 的句子摘要框架，可无需金标准摘要进行训练，同时允许直接控制压缩比率。通过符号知识蒸馏的概念框架，从预训练语言模型中提炼潜在知识，进一步纯化、过滤和迭代，创造了高质量的数据集和摘要模型，大幅提升了摘要的可控性和压缩效率。

Oct, 2022

无监督舆情摘要生成与加噪声去噪声技术

本文介绍了一种基于🈚️ground truth summaries 的情况下，利用文档创建合成数据集、引入多种噪声生成函数以及学习生成原始评论的摘要模型的方法，该方法比抽取式和生成式基线模型都有更好的效果。

Apr, 2020

无参考摘要的信息论蒸馏

InfoSumm 是一种基于信息理论目标的新型框架，通过互信息来蒸馏出一个强大的摘要器，不依赖于大规模语言模型的能力或人工编写的参考文献，参数仅为 568M，性能竞争力强，在人工评估中超过了领域内监督模型，更胜一筹于 ChatGPT 的可控摘要。

Mar, 2024

自知力蒸馏用于学习模糊性

通过自知力蒸馏方法，有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题，并通过重新校准置信度，在生成更好的标签分布上取得了显著的改进。同时，该方法相对于现有方法在训练模型时更高效，无需额外的训练过程来完善标签分布。

Jun, 2024

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

微型语音增强的两步知识蒸馏

借助知识蒸馏技术，我们提出了一种新的两步法来压缩 Tiny 语音增强模型，其中包括先用知识蒸馏目标进行预训练，然后切换到完全监督训练模式，同时提出了一种新的细粒度相似性保持 KD 损失函数，该方法在高压缩和低信噪比条件下表现出突出的改进，相对于基线，在输入信噪比为 - 5dB 和 63 倍压缩的情况下，信噪失真比分别提高了 0.9dB 和 1.1dB。

Sep, 2023

教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

通过提出一个三组件框架，利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号，我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明，相较于没有任何信号进行微调的情况，我们提出的两阶段框架平均带来了 20.79% 左右的相对提升，适用于四个复杂推理任务。

Jun, 2024