Mar, 2022

通过音素序列和 ASR 假设之间的交叉注意力构建强健的口语理解

TL;DR提出了一种新的基于交叉注意力的 SLU 模型 (CASLU),通过利用语音的音素序列来对抗 ASR 误差,实现同时捕捉输入的语音和语义特征,并在下游 NLU 任务中提高鲁棒性,大量实验证明了其有效性。