BLSP-KD：通过知识蒸馏引导语言 - 语音预训练

May, 2024

BLSP-KD：通过知识蒸馏引导语言 - 语音预训练

BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation

Chen Wang, Minpeng Liao, Zhongqiang Huang, Jiajun Zhang

TL;DR通过知识蒸馏，BLSP-KD 通过两个关键技术来优化语音 - 文本对齐质量，实现细粒度对齐，同时还引入了 LLM 的适应方法 PLoRA，通过定量评估说明了 BLSP-KD 在扩展 LLMs 到口语交互方面的优势。

Abstract

Recent end-to-end approaches have shown promise in extending large language models (LLMs) to speech inputs, but face limitations in directly assessing and optimizing alignment quality and fail to achieve fine-grained alignment due to speech-text length mismatch. We introduce

end-to-end approaches blsp-kd knowledge distillation speech-text alignment llm finetuning

发现论文，激发创造

BLSP：基于继续写作行为对齐的语音 - 文本预训练引导

通过行为对齐的方式，我们提出了一种轻量级的语言 - 语音预训练方法，将大型语言模型（LLMs）的能力扩展到语音识别、语音翻译、口语理解和对话等领域，实现了语音和文本之间的模态对齐。

Sep, 2023

文本和语音预训练模型之间的自适应知识蒸馏

本文介绍了一种通过度量学进行知识蒸馏以改善文本和音频的嵌入向量的对齐，提出了 Prior-informed Adaptive knowledge Distillation (PAD) 方法，该方法具有更好的文本语音模型之间的传输能力，我们在三个口语理解基准测试中进行了评估。

Mar, 2023

多阶段均衡蒸馏：解决序列级知识蒸馏中的长尾挑战

大语言模型（LLMs）在各种自然语言处理任务中有了显著的进展，但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation（BalDistill）的框架，通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本，平衡训练数据，并在各种长尾数据集上取得了最先进的性能，提高了蒸馏模型的效率和效果。

Jun, 2024

终身语言知识蒸馏

提出了一种名为 Lifelong Language Knowledge Distillation（L2KD）的方法来解决流式任务（stream of different tasks） LLL 中的性能降低问题，通过一个教师模型来将新任务的知识通过知识蒸馏的方式传递给现有的 LLL 模型，从而使得 LLL 模型可以更好地适应新任务，同时保留先前学习到的知识。该方法的实验证明，L2KD 在 LLL 任务的顺序生成和文本分类方面比之前的最先进模型有着不俗的表现，并且在与 multi-task 模型性能对比方面，L2KD 均获得了显著提升。

Oct, 2020

端到端逐步增量式语音理解的序列级知识蒸馏

该研究提出了三种知识蒸馏方法，通过应用于声音编码器 (audio-KD) 和解码器 (tok-KD 和 seq-KD) 以解决神经网络在非稳态环境下学习新概念的问题，特别应用于连续学习等领域的口语理解问题。结果表明，seq-KD 可以显著提高性能，并与 audio-KD 的结合进一步降低了平均 WER 并增强了实体预测指标。

May, 2023

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

大型语言模型的双空间知识蒸馏

通过提出双空间知识蒸馏 (DSKD) 框架，我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题，并进一步开发了跨模型注意力机制，支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明，DSKD 在各种距离函数下显著优于当前白盒知识蒸馏框架，并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。

Jun, 2024

PLaD: 偏好基的大型语言模型压缩与伪优选对

本研究提出了一种名为 PLaD 的基于偏好的大型语言模型蒸馏框架，通过利用教师模型与学生模型之间的容量差异生成伪偏好对，使用排名损失重新校准学生模型对序列概率的估计，从而使学生模型更好地理解输出质量的相对优劣，而不是简单地模仿教师模型。通过在两个序列生成任务上进行广泛实验证明了 PLaD 框架的有效性。

Jun, 2024

将解码与知识蒸馏并行进行：从语言模型到端到端语音识别的有效知识蒸馏

通过使用中间层和最终层，本研究提出了一种将 BERT 教师模型的知识蒸馏到自动语音识别模型中的新方法。实验证明，使用中间层作为蒸馏目标可以更有效地将语言模型知识蒸馏到较低的网络层，从而实现比外部语言模型的浅层融合更好的识别准确性，同时保持了快速并行解码。

Jan, 2024

DistiLLM：面向大型语言模型的精简蒸馏

DistiLLM 是一种更有效和高效的知识蒸馏框架，适用于自回归语言模型，通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法，构建高性能的学生模型，并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。

Feb, 2024