Oct, 2020

通用音频表示的对比学习

TL;DRCOLA 是一种基于对比学习的自监督预训练方法,用于学习音频的通用表示,通过在大规模的 Audioset 数据库上进行预训练,使得其在包括语音、音乐、动物声音和声学场景等 9 项分类任务中性能显著优于之前的自监督系统,并进一步通过消融研究指出了关键的设计选择。