Mar, 2018

无约束视频中的视听事件定位

TL;DR本文介绍了一个新的无约束视频中的音频视觉事件定位问题,使用AVE数据集进行研究,提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案,并针对跨模态定位提出跨模态距离学习网络。实验结果表明,联合建模听觉和视觉模型优于独立建模,学习到的注意力可以捕捉声音对象的语义,音频视觉融合的时序对齐很重要,所提出的DMRN在融合音频视觉特征方面非常有效,两个模态之间的强相关性使跨模态定位成为可能。