利用微调和最小前瞻波束搜索改善 Whisper

Sep, 2023

利用微调和最小前瞻波束搜索改善 Whisper

Using fine-tuning and min lookahead beam search to improve Whisper

Andrea Do, Oscar Brown, Zhengjie Wang, Nikhil Mathew, Zixin Liu...

TL;DR在低资源语言方面，Whisper 的性能仍然不够完善。为了解决这些问题，我们在额外数据上对 Whisper 进行了微调，并提出了一种改进的解码算法。在越南语上，使用 LoRA 对 Whisper-Tiny 进行微调可以将 WER 相对于零 - shot 的 Whisper-Tiny 设置提高 38.49，相对于完全参数微调的减少了 1.45。此外，使用 Filter-Ends 和 Min Lookahead 解码算法，WER 相对于标准 beam search 平均减少了 2.26。这些结果推广到更大的 Whisper 模型尺寸。我们还证明了 Min Lookahead 优于 Whisper 中使用的标准 beam search 算法。

Abstract

The performance of whisper in low-resource languages is still far from perfect. In addition to a lack of training data on low-resource languages<

whisper low-resource languages beam search algorithm fine-tuning decoding algorithm

发现论文，激发创造

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023

LoRA-Whisper: 参数高效且可扩展的多语言语音识别

本文提出了 LoRA-Whisper 模型，通过将 LoRA 矩阵融入 Whisper，有效减轻多语种自动语音识别中的语言干扰，并通过利用 LoRA 和语言之间的相似性，在新语种上取得更好的性能，同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中，我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。

Jun, 2024

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

基于 N-Shot 的 Whisper 在多样化阿拉伯语音识别中的基准测试

本研究对 Whisper 在多种阿拉伯口音（包括几种没见过的口音）上进行了综合评估，结果发现 Whisper 在零 - shot 设置下性能较好，但在五种未见过的方言上性能明显下降。

Jun, 2023

Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.

Jun, 2024

Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏

通过伪标注法，将较大的语音识别模型提炼为 Distil-Whisper 变体，使其在低延迟或资源有限的环境中更快速地执行，同时保持与原模型接近的性能。

Nov, 2023

针对低资源语言的文本转语音自动 MOS 预测的资源有效调整策略

通过对 BVCC 和 SOMOS 数据集进行 wav2vec 2.0 预训练和微调，实现了针对 LRL West Frisian 的零样本 MOS 预测。研究表明，在 30% 的数据使用量之后，使用更多的数据并没有显著性的提高性能；同时，对单个听众的数据进行微调有望提高系统级的性能和稳定性。这些发现有助于开发 LRL 语音合成系统的零样本 MOS 预测和初期评估。

May, 2023

Whisper-KDQ：基于知识蒸馏和量化引导的轻量化口语识别技术

本文介绍一种新的知识蒸馏和量化的方法，用于压缩预训练的语音识别模型 Whisper，保持其性能的同时减少模型大小和计算开销，实验结果表明该方法可以将原始模型压缩至 5.18X/10.48X，同时以字符误差率的 11.3％和 14.0％的相对减少量维持性能。

May, 2023

Whisper 能否进行基于语音的上下文学习

通过以语音为基础的上下文学习方法，本研究调查了由 OpenAI 发布的 Whisper 自动语音识别（ASR）模型的上下文学习能力。在应用于孤立词 ASR 时，实验结果表明使用任意大小的 Whisper 模型在两种方言中能够显著减少词错误率（WER），平均降低率为 32.3%。可应用于进一步提高上下文学习效率的基于 k 最近邻的示例选择技术能将平均相对 WER 减少率提高至 36.4%。研究还对发音变化和方言特定的词汇细微差别的适应性进行了详细的定量分析。

Sep, 2023