Feb, 2024

具有强大ASR能力的LMM的令人尴尬的简单方法

TL;DR通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究,本文提出了一种简单而高效的SLAM-ASR系统,该系统在Librispeech基准测试中表现出色,并且超过了最新的音频通用模型。同时,本文还探讨了基于LLM的ASR的能力发展和模态对齐的问题。