IJCAIMay, 2020

利用弱标签数据进行大规模音频视觉学习

TL;DR本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。