Nov, 2020

基于语义嵌入的零样本音频分类

TL;DR本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类,并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影,即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类,其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明:“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。