适用于零样本音频分类器的可听地图
提出一种基于自然语言监督学习的音频概念学习方法 CLAP,通过两个编码器和对比学习将音频和文本描述连接到多模态空间中,从而实现了零样本性能,其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。
Jun, 2022
利用预训练模型,包括 CLIP 和 CLAP 提取特征,结合文本编码嵌入以提高性能,我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习,并在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL 等数据集上取得了最先进的性能。
Apr, 2024
ZerAuCap 是一个新的框架,利用预训练的大型语言模型来生成既不需要任务特定训练,又能描述音频内容的文本标注,通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本,使用音频上下文关键词来生成广义的文本,在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。
Nov, 2023
利用仅有每个意图几个样本文本句子的泛化零样本音频到意图分类框架,该框架使用只有音频的数据,通过训练有监督的音频到意图分类器和利用神经音频合成器生成音频嵌入,使用余弦相似度对未见过的意图进行泛化零样本分类,并通过多模态训练策略将词汇信息融入音频表征来提高泛化零样本性能。相较于仅使用音频训练,我们的多模态训练方法提高了 SLURP 和内部目标导向对话数据集上未见过的意图的零样本意图分类准确率分别为 2.75%和 18.2%。
Nov, 2023
我们提出了一个零样本音频标记系统,使用 JMLA 模型来解决开放式音乐标记问题,并通过引入稠密注意连接来提高编码器和解码器之间的信息流动。我们收集了一个大规模的音乐和描述数据集,并使用 ChatGPT 将原始描述转化为形式化和多样化的描述以训练 JMLA 模型。我们的提出的 JMLA 系统在 GTZAN 数据集上实现了 64.82% 的零样本音频标记准确率,优于以前的零样本系统,并在 FMA 和 MagnaTagATune 数据集上实现了与以前系统相当的结果。
Oct, 2023
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型 ——tinyCLAP,该模型仅使用原 Microsoft CLAP 参数的 6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到 5%。
Nov, 2023
我们的研究主要关注声音景观映射的任务,利用先进的模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码,构建了三种模态的共享嵌入空间,从而可以根据文本或音频查询构建任何地理区域的声音景观地图。在 SoundingEarth 数据集上,我们的方法明显优于现有最先进方法,在图像到音频的召回率改善了从 0.256 提高到 0.450。我们的代码可在此链接中找到。
Sep, 2023
本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类,并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影,即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类,其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明:“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。
Nov, 2020
本文提出了一种新的多模式推广零样本学习方法,使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐,使用交叉模态解码器和组合三元组损失,在多模态设置中来执行零样本学习,实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。
May, 2020
该论文提出了基于视频和音频数据的零样本学习方法,通过跨模态注意力学习多模态表示,并利用文本标签嵌入将知识从已见类别转移到未见类别,并在三个不同规模和难度的音视频数据集上进行了基准测试,结果表明,所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。
Mar, 2022