Jun, 2022

CLAP:从自然语言监督中学习音频概念

TL;DR提出一种基于自然语言监督学习的音频概念学习方法 CLAP,通过两个编码器和对比学习将音频和文本描述连接到多模态空间中,从而实现了零样本性能,其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。