Sep, 2024

基于大型语音-文本基础模型的语音识别重评分

TL;DR本研究解决了自动语音识别(ASR)系统因可用转录语音数据有限而导致的性能瓶颈。提出了利用多模态大型语言模型进行ASR重评分的创新技术,并探索了判别训练来提升重评分性能。实验表明,通过语音-文本基础模型的跨模态知识转移,重评分效果显著提升,相较Whisper大型ASR和仅基于文本的LLM分别提高了20%和15%的相对性能。