BLSP-KD:通过知识蒸馏引导语言 - 语音预训练
通过行为对齐的方式,我们提出了一种轻量级的语言 - 语音预训练方法,将大型语言模型(LLMs)的能力扩展到语音识别、语音翻译、口语理解和对话等领域,实现了语音和文本之间的模态对齐。
Sep, 2023
本文介绍了一种通过度量学进行知识蒸馏以改善文本和音频的嵌入向量的对齐,提出了 Prior-informed Adaptive knowledge Distillation (PAD) 方法,该方法具有更好的文本语音模型之间的传输能力,我们在三个口语理解基准测试中进行了评估。
Mar, 2023
大语言模型(LLMs)在各种自然语言处理任务中有了显著的进展,但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation(BalDistill)的框架,通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本,平衡训练数据,并在各种长尾数据集上取得了最先进的性能,提高了蒸馏模型的效率和效果。
Jun, 2024
提出了一种名为 Lifelong Language Knowledge Distillation(L2KD)的方法来解决流式任务(stream of different tasks) LLL 中的性能降低问题,通过一个教师模型来将新任务的知识通过知识蒸馏的方式传递给现有的 LLL 模型,从而使得 LLL 模型可以更好地适应新任务,同时保留先前学习到的知识。该方法的实验证明,L2KD 在 LLL 任务的顺序生成和文本分类方面比之前的最先进模型有着不俗的表现,并且在与 multi-task 模型性能对比方面,L2KD 均获得了显著提升。
Oct, 2020
该研究提出了三种知识蒸馏方法,通过应用于声音编码器 (audio-KD) 和解码器 (tok-KD 和 seq-KD) 以解决神经网络在非稳态环境下学习新概念的问题,特别应用于连续学习等领域的口语理解问题。结果表明,seq-KD 可以显著提高性能,并与 audio-KD 的结合进一步降低了平均 WER 并增强了实体预测指标。
May, 2023
本文提出了一种名为 MiniLLM 的方法,该方法利用 Kullback-Leibler 散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了 MiniLLM 模型的性能表现更佳。
Jun, 2023
通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。
Jun, 2024
本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架,通过利用教师模型与学生模型之间的容量差异生成伪偏好对,使用排名损失重新校准学生模型对序列概率的估计,从而使学生模型更好地理解输出质量的相对优劣,而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。
Jun, 2024
通过使用中间层和最终层,本研究提出了一种将 BERT 教师模型的知识蒸馏到自动语音识别模型中的新方法。实验证明,使用中间层作为蒸馏目标可以更有效地将语言模型知识蒸馏到较低的网络层,从而实现比外部语言模型的浅层融合更好的识别准确性,同时保持了快速并行解码。
Jan, 2024
DistiLLM 是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。
Feb, 2024