论鲁棒知识蒸馏的稳健性问题

ACLJun, 2024

To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation

Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed

TL;DR在阿拉伯语自动语音识别（ASR）方面存在独特的挑战，为了克服这些挑战，本研究采用知识蒸馏技术将大型教师模型提取为更高效的小型学生模型，引入了一份人工标注的新数据集以评估五个少见的阿拉伯方言。在现有基准测试和新的方言数据上，我们的最佳蒸馏模型整体表现优于现有模型（SeamlessM4T-large-v2，WER=47.0%）和教师模型（Whisper-large-v2，WER=55.1%），并且在新的方言数据上的平均性能（WER=56.9%）超过了所有其他模型。通过错误分析，揭示了这些模型在方言数据上表现不佳的主要错误类型。

Abstract

arabic is known to present unique challenges for automatic speech recognition (ASR). On one hand, its rich linguistic diversity and wide range of dialects complicate the development of robust, inclusive models. O

automatic speech recognition arabic multilingual models distillation dialectal data

发现论文，激发创造

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏

通过伪标注法，将较大的语音识别模型提炼为 Distil-Whisper 变体，使其在低延迟或资源有限的环境中更快速地执行，同时保持与原模型接近的性能。

Nov, 2023

将预训练语言模型提炼为多语言自动语音识别模型

本研究提出了一个名为 Distill-L2S 的新方法，将一个已经训练好的跨语言语言模型转移到语音识别模型中，通过该方法在 20 种低资源语言中达到了优越性能。

Jun, 2022

软硬目标 RNN-T 蒸馏在大规模 ASR 中的比较

本文研究了将知识从一个训练规模较大的教师模型转移到较小的学生模型中的知识蒸馏技术，在 LibriSpeech / LibriLight 公共数据集（60k 小时）和我们公司的内部数据（600k 小时）上对大规模 RNN-T 模型的软目标和硬目标蒸馏进行了比较，发现当教师和学生具有不同的架构（如大教师和小流式学生）时，硬目标更有效。此外，软目标蒸馏在自训练场景（如迭代大型教师训练）中效果更好。通过使用软目标蒸馏进行 Noisy Student 训练，成功在 LibriSpeech 上实现了新的 SoTA 词误率（dev-other 上 8％的相对改进），并允许我们的生产教师不断适应新的数据域。

Oct, 2022

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

利用数据收集和无监督学习对突尼斯阿拉伯语混合语音自动识别的提升

本研究旨在解决突尼斯方言语音识别的挑战，通过采集和注释文本和音频数据，并探索自监督、半监督和少样本代码转换方法，使其在不同的突尼斯测试集中取得前沿成果，最终通过人工评估确保翻译的准确性，所提出的模型适用于突尼斯阿拉伯语、英语和法语的语言混合，并提供训练和测试数据供公众使用和进一步改进。

Sep, 2023

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

ASR 是你所需要的：用于唇读的跨模态蒸馏

本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习，通过跨媒体蒸馏方法将 Connectionist Temporal Classification（CTC）与逐帧交叉熵损失相结合，以无标注的视频数据来提高效果和速度，并在 LRS2 和 LRS3 数据集上实现了最先进的结果。

Nov, 2019

将解码与知识蒸馏并行进行：从语言模型到端到端语音识别的有效知识蒸馏

通过使用中间层和最终层，本研究提出了一种将 BERT 教师模型的知识蒸馏到自动语音识别模型中的新方法。实验证明，使用中间层作为蒸馏目标可以更有效地将语言模型知识蒸馏到较低的网络层，从而实现比外部语言模型的浅层融合更好的识别准确性，同时保持了快速并行解码。

Jan, 2024

多语言 AMR 解析中的噪声知识蒸馏

通过知识蒸馏的方法，结合精确的输出和大量预训练，我们在一个严格的多语言设置中获得了一个 AMR 解析器，其性能超过了先前发表的所有结果，并在英语上达到了与最新的最先进的英语解析器相当的性能。

Sep, 2021