Apr, 2021

跨模态学习用于视听视频解析

TL;DR本文介绍了一种新的音频 - 视觉视频解析(AVVP)任务的方法,该方法将音频和视觉模态中的事件分开,在时间上同时检测这些事件的开始和结束,并利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频 - 视频表示,实验结果表明本文的方法在 AVVP 任务上比现有的 HAN 模型更好。