Apr, 2020

VGGSound:大规模音频视觉数据集

TL;DR利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集,用于训练和评估音频识别模型。使用图像分类算法,过滤环境噪声,创建 VGGSound 数据集,并研究了各种卷积神经网络架构和聚合方法,以建立新数据集的音频识别基线。