Dec, 2023

基于预训练语音和语言模型的端到端语音识别整合

TL;DR利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用 LLM 提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端 ASR 模型相媲美的性能。