Jan, 2020

课程视听学习

TL;DR本文提出了一种灵活的音视频模型,通过软聚类模块作为音频和视频内容检测器,并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督,并提出一种新颖的课程学习策略,从简单到复杂的场景训练模型,以缓解音视频学习的困难。同时,本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能,进一步将训练好的模型部署到实际音视频定位和分离任务中,并显示其定位模型明显优于现有方法,基于此,我们在音频分离方面的性能也表现出色,而不需要参考外部视觉监督。