Aug, 2024

估计音频-标题对应关系改善基于语言的音频检索

TL;DR本研究解决了音频检索系统中,由于仅使用匹配的音频-标题对,导致的语义匹配不足的问题。提出了一种两阶段的训练方法,通过利用预测的音频-标题对应关系来改进模型的表现。研究结果表明,该方法在ClothoV2基准上,比当前最优技术提高了1.6个百分点的检索性能。