CVPRDec, 2019

探索上下文、注意力和音频特征用于音频视觉场景感知对话

TL;DR本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用 end-to-end 音频分类卷积神经网络 AclNet,以音视频场景感知任务数据集 AVSD 进行测试,并提出了改进方案算法,优于现有基线系统。