将 ASR 基础模型用于口语评估的适应
本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法,利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper,实验结果显示,该方法可以在只需要任务特定模型参数约 1% 的情况下,达到与先进的完全微调方法相当的性能,同时保留了原始 Whisper 的特征,使生成的转录自然且信息丰富。
Dec, 2023
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023
通过上下文偏差对 Whisper 模型进行改进,提出了一种优化行话词识别的新方法。采用关键词检测模型,利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器,并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中,与 Whisper 相比,平均词错误率提高了 5.1%。
Jun, 2024
通过边缘自动语音识别 (ASR)技术,本研究提出了 PI-Whisper 框架,以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性,并在状态 - of-the-art 的准确性下降为主的情况下,提高 13.7%的识别准确率。
Jun, 2024
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
该研究提出了一种语音识别系统,专门用于适应资源有限的印度语言,采用 ASR 模型和 KenLM 语言模型,取得了较低的错误率。
Jul, 2023
本文介绍一种基于 OpenAI Whisper ASR 的大规模 ASR 系统来评估适应方案的方法,该方法采用基于错误校正的方法并且可应用于不同结构的语音识别模型以提高模型的适应性。
Jun, 2023
本文研究了 OpenAI 的 Whisper ASR 在葡萄牙语中标点预测的性能。通过对虚拟博物馆中视频的实验评估,结果表明 Whisper ASR 达到了最先进的水平,但感叹号、分号和冒号等标点的识别仍需要改进。
May, 2023
本文通过调整 Prompt 的方式,从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手,探究了该模型 Whisper 的应用性能。实验证明,相对于默认 Prompt,本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%,并在一些数据集上甚至超越了 SotA 监督模型。此外,实验还揭示了 Whisper 的许多有趣属性,例如其对提示的鲁棒性、对语音口音的偏见,以及在潜在空间中的多语言理解。
May, 2023