Jul, 2022

引入辅助文本查询修改器以实现基于内容的音频检索

TL;DR提出了一种基于内容的音频检索方法,通过引入辅助文本信息来检索与查询音频类似但略有不同的目标音频,并将辅助文本查询修改器的嵌入添加到共享潜在空间中,可以调整检索范围。实验结果表明,该方法比基线更准确地检索配对音频,并获得了共享潜在空间,其中音频差异和相应的文本表示为类似的嵌入向量。