Mar, 2022

简单实现的视觉声音定位

TL;DR本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法,旨在识别视频中的可见声源,其采用对齐音频和视觉空间的方法来实现,在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现,特别是在 CIoU 方面从 76.80% 提高到了 83.94%。