Sep, 2022

使用 WavText5K 和 CLAP 训练进行音频检索

TL;DR本文提出了一个新的 Web 音频文本检索框架,使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接,包括多个数据集的使用,取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2%和 16%的提高,对于音频 - 文本检索上的 6%和 23%的提高。