Oct, 2020

基于自监督视听匹配的区分性声音目标定位

TL;DR本研究提出了一种两阶段学习框架,利用单一场景下的候选声音定位结果来学习鲁棒的对象表示,并通过引用预学习的对象知识生成了类感知对象本地化映射,在各种混音声音场景下选择声音和视觉对象类别分布的匹配,其中视听一致性被视为自我监督信号。实验结果表明,我们的模型在过滤无声对象和指出不同类别声音对象位置方面优于其他方法。