Jun, 2024

融合音频和元数据嵌入提升基于语言的音频检索

TL;DR通过利用音频元数据作为额外线索,以了解音频信号内容并将其与文本查询进行匹配,本文研究了一种混合检索系统。我们通过实验使用通常附加在音频录音上的元数据,如关键词和自然语言描述,并调查了融合音频和元数据的后期和中间级融合策略。我们的混合方法通过关键词元数据和后期融合,相较于基于内容的基线,分别在 ClothoV2 和 AudioCaps 基准上将检索性能提高了 2.36 和 3.69 个点,mAP@10。