PI-Whisper:面向多样化和不断演化的说话人特征的自适应增量式语音识别框架
通过上下文偏差对 Whisper 模型进行改进,提出了一种优化行话词识别的新方法。采用关键词检测模型,利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器,并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中,与 Whisper 相比,平均词错误率提高了 5.1%。
Jun, 2024
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
通过以语音为基础的上下文学习方法,本研究调查了由 OpenAI 发布的 Whisper 自动语音识别(ASR)模型的上下文学习能力。在应用于孤立词 ASR 时,实验结果表明使用任意大小的 Whisper 模型在两种方言中能够显著减少词错误率(WER),平均降低率为 32.3%。可应用于进一步提高上下文学习效率的基于 k 最近邻的示例选择技术能将平均相对 WER 减少率提高至 36.4%。研究还对发音变化和方言特定的词汇细微差别的适应性进行了详细的定量分析。
Sep, 2023
DistilWhisper 是一个轻量级模块化的 ASR 框架,通过语言专家和知识蒸馏的方式提高了 Whisper 的性能,同时保留了多任务和多语言预训练模型的鲁棒性,在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。
Nov, 2023
近期在自动语音识别系统(ASR)方面的最新进展,如 Whisper,已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而,由于适合儿童的特定数据库的有限性以及儿童语音的独特特征,这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性,同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。
Sep, 2023
本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法,利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper,实验结果显示,该方法可以在只需要任务特定模型参数约 1% 的情况下,达到与先进的完全微调方法相当的性能,同时保留了原始 Whisper 的特征,使生成的转录自然且信息丰富。
Dec, 2023
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
通过引入 Perceiver-Prompt 方法,利用 P-Tuning 对 Whisper 大规模模型进行微调,并通过可训练的 Perceiver 从可变长度输入中生成固定长度的说话人提示,以提高对中国发音障碍语音的模型识别性能。我们的实验结果表明,Perceiver-Prompt 在中国发音障碍语音数据集中获得了持续的识别性能改善,CER 相对减少高达 13.04%。
Jun, 2024
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023
本文提出了 LoRA-Whisper 模型,通过将 LoRA 矩阵融入 Whisper,有效减轻多语种自动语音识别中的语言干扰,并通过利用 LoRA 和语言之间的相似性,在新语种上取得更好的性能,同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中,我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。
Jun, 2024