ECCVJul, 2020

统一的多感知知觉:弱监督的音频 - 视觉视频解析

TL;DR本文介绍了音频 - 视觉视频解析的问题,并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题,以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明,即使只有视频级弱标签,也可以实现具有挑战性的音频 - 视觉视频解析。