May, 2024

揭示基于 LLM 的中文开源数据集上的 ASR 潜力

TL;DR基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。