Dec, 2023
基于预训练语音和语言模型的端到端语音识别整合
An Integration of Pre-Trained Speech and Language Models for End-to-End
Speech Recognition
TL;DR利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用LLM提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端ASR模型相媲美的性能。