Nov, 2022

SLICER:使用低资源自监督预训练学习通用音频表示

TL;DRSLICER是一种使用自监督学习技术的先前编码器的新方法,可以减少音频和语音分类需要大量标记数据的情况。它使用聚类和对比学习范例的组合来提高语音表示学习的效果,并进行实例和聚类层对比学习任务。此外,它还使用了一种新的mel频谱增强程序k-mix,无需标签,并有助于音频的无监督表示学习。