Aug, 2023

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

TL;DR该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一,在 ClothoV2 基准测试中的表现优于当前的最新技术,提高了 5.6 个百分点的 mAP@10。