Aug, 2023

感应网络:用于自监督声源定位的音频 - 视觉模态缺口填补

TL;DR通过引入感应网络和自适应阈值选择策略,本研究提出了一种用于自我监督声源定位的方法,以解决模态不一致性问题,并实现音频 - 视觉的一致对齐。在 SoundNet-Flickr 和 VGG-Sound Source 数据集上的实验证实了其在不同挑战场景中相较于其他最先进方法的优越性能。