Whisper 能否进行基于语音的上下文学习

Sep, 2023

Whisper 能否进行基于语音的上下文学习

Can Whisper perform speech-based in-context learning

Siyin Wang, Chao-Han Huck Yang, Ji Wu, Chao Zhang

TL;DR通过以语音为基础的上下文学习方法，本研究调查了由 OpenAI 发布的 Whisper 自动语音识别（ASR）模型的上下文学习能力。在应用于孤立词 ASR 时，实验结果表明使用任意大小的 Whisper 模型在两种方言中能够显著减少词错误率（WER），平均降低率为 32.3%。可应用于进一步提高上下文学习效率的基于 k 最近邻的示例选择技术能将平均相对 WER 减少率提高至 36.4%。研究还对发音变化和方言特定的词汇细微差别的适应性进行了详细的定量分析。

Abstract

This paper investigates the in-context learning abilities of the Whisper automatic speech recognition (ASR) models released by OpenAI. A novel speech-based in-context learning (SICL) approach is proposed for test

in-context learning whisper automatic speech recognition speech-based in-context learning word error rates k-nearest-neighbours-based in-context example selection technique

发现论文，激发创造

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024

CB-Whisper: 基于文本到语音关键词检测的上下文偏置 Whisper

Contextual Biasing Whisper (CB-Whisper) 是基于 OpenAI 的 Whisper 模型的一种新型自动语音识别（ASR）系统，在解码器之前进行关键词检测（KWS）。实验表明，通过将预测的实体结合到精心设计的口语提示中，Whisper 模型在覆盖仅英文、仅中文和代码切换情景的三个内部数据集和两个开源数据集上的混合错误率（MER）和实体召回率显著提高。

Sep, 2023

PI-Whisper：面向多样化和不断演化的说话人特征的自适应增量式语音识别框架

通过边缘自动语音识别（ASR）技术，本研究提出了 PI-Whisper 框架，以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性，并在状态 - of-the-art 的准确性下降为主的情况下，提高 13.7％的识别准确率。

Jun, 2024

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

使用 Whisper 和 GPT-2 技术进行情境偏见调整是否仍然有效？

本文研究了对 Whisper 和 GPT-2 进行神经语境偏置的有效性，发现使用特定的偏置列表来帮助 Whisper 和 GPT-2 减少数据集中不频繁且性能差的单词可以显著降低错误率。在应用于特定领域的数据时，语境偏置更加有效，并可以提高 Whisper 和 GPT-2 的性能，同时不失其一般性。

Jun, 2023

Simul-Whisper：带有截断检测的注意力引导流式 Whisper

Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention for guiding auto-regressive decoding, achieving chunk-based ASR without fine-tuning, while proposing an integrate-and-fire-based truncation detection model to address the negative effect of truncated words at chunk boundaries, outperforming the current state-of-the-art baseline with a minimal absolute word error rate degradation.

Jun, 2024

基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测

利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示，结合人类记忆的示例驱动型心理模型，预测助听器用户的人类可懂度评级，并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。

Jan, 2024