Nov, 2022

一种新的多模态动态融合网络用于口语话语中的干扰检测

TL;DR本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构,通过使用文本和声学模态之间的多模态动态融合网络,在个体话语中进行语调检测,结果表明在英语 Switchboard 上,我们的模型实现了最先进的效果,并且在文献中优于以前的单模态和多模态系统。