BriefGPT.xyz
Ask
alpha
关键词
flickr soundnet dataset
搜索结果 - 1
CVPR
艰难的方式本地化视觉音效
本文主要讲述了如何通过训练神经网络来定位视频中可见的声源,采用对图像难样本强化学习的方法以提升定位精度。同时,作者还介绍了一个新的数据集 VGG-Sound Source benchmark,并展示了该算法在其上的最先进性能。
PDF
3 years ago
Prev
Next