Mar, 2021

音频表示的多格式对比学习

TL;DR本研究通过多种不同格式的单一模态对比学习框架,最大程度地提高音频表示的有效性,取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上,我们的声音单一方法取得了新的最佳结果,平均精度为 0.376,准确率为 90.5%。