Jul, 2023

融合预训练的 ASR 和 LM 进行语音理解的序列生成

TL;DR我们提出了一个三步走的端到端 SLU 系统,将预训练的语音识别模型和语言模型有效地集成到 SLU 框架中,以用于序列生成任务。该系统在 ASR 和 LM 子网络的基础上进行预测,最终预测基于 ASR 和 LM 子网络的表示结果。我们的三步走 SLU 系统在两个基准 SLU 数据集(SLURP 和 SLUE)上表现出卓越性能,尤其在具有挑战性的音频对话中的表现更好。