Feb, 2024

具有强大 ASR 能力的 LMM 的令人尴尬的简单方法

TL;DR通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究,本文提出了一种简单而高效的 SLAM-ASR 系统,该系统在 Librispeech 基准测试中表现出色,并且超过了最新的音频通用模型。同时,本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。