CVPRApr, 2021

艰难的方式本地化视觉音效

TL;DR本文主要讲述了如何通过训练神经网络来定位视频中可见的声源,采用对图像难样本强化学习的方法以提升定位精度。同时,作者还介绍了一个新的数据集 VGG-Sound Source benchmark,并展示了该算法在其上的最先进性能。