MMJun, 2022

利用变换不变性和等变性进行自监督声音定位

TL;DR提出一种简单而有效的自监督框架,用于音频 - 视觉表示学习,以定位视频中的声音源。通过系统地研究数据增强的效果,揭示出数据增强的组成对学习有用的表示起到了至关重要的作用,并且实验证明了该模型在两个声音定位基准测试上显著优于以前的方法。