Jul, 2022

对比环境声音表示学习

TL;DR利用自监督对比技术和浅层 1D CNN 提取环境音频的显著特征,进一步使用规范相关分析(CCA)来融合来自给定音频的两种输入类型的表示,并证明融合的全局特征相对于单独的表示具有更强的鲁棒性。在 ESC-50 和 UrbanSound8K 上的评估表明,该技术能够提取环境声音的大部分特征,并分别在 ESC-50 和 UrbanSound8K 数据集上获得了 12.8%和 0.9%的改进。