Apr, 2021

多模态自监督学习通用音频表示

TL;DR通过使用多模态框架,在训练音频表征时利用视频信息和加入混合样本的数据增强,本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。