Jun, 2023
健壮口语理解的多模态音文结构
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding
Anderson R. Avila, Mehdi Rezagholizadeh, Chao Xing
TL;DR本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失,并提出一种多模态语言理解模块,利用自监督学习从语音和文本模态中获取特征,最终通过对音频信号和文本传输进行编码来获得更好的性能。