Jul, 2023

利用预训练的 ASR 编码器进行有效和高效的端到端语音意图分类和槽填充

TL;DR通过使用预训练的语音识别(ASR)编码器来初始化端到端(E2E)Conformer-Transformer 模型,本文研究了语音意图分类和槽填充(SICSF),该模型在 SLURP 数据集上实现了新的最高准确度结果,意图准确率为 90.14%,SLURP-F1 为 82.27%,并且与自监督学习(SSL)预训练对比表明,ASR 预训练对于 SICSF 比 SSL 更为有效,此外,我们提供了端到端模型与级联模型(ASR + NLU)之间的深入比较,并展示了,除非提供 oracle ASR 模型,否则 E2E 模型优于级联模型,最后,我们的模型是首个与 oracle ASR 级联模型表现相同的 E2E 模型。