Feb, 2021

PSLA: 通过预训练、采样、标注和聚合来提高音频标记的准确性

TL;DR本文研究基于 AudioSet 的音频标记技术,实现了包括 ImageNet 预训练、平衡采样、数据增强、标签增强和模型集成等训练技巧,应用在 EfficientNet 上,单个模型和集成模型在 AudioSet 上都表现出较高的平均精确度 (mAP) 得分,且还在 FSD50K 上创造了新的最高得分。