Dec, 2023

通过提示调优扩展 Whisper 以实现面向目标说话者的 ASR

TL;DR本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法,利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper,实验结果显示,该方法可以在只需要任务特定模型参数约 1% 的情况下,达到与先进的完全微调方法相当的性能,同时保留了原始 Whisper 的特征,使生成的转录自然且信息丰富。