基于语义嵌入的零样本音频分类

Nov, 2020

Zero-Shot Audio Classification via Semantic Embeddings

Huang Xie, Tuomas Virtanen

TL;DR本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类，并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影，即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类，其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明：“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。

Abstract

In this paper, we study zero-shot learning in audio classification via semantic embeddings extracted from textual labels and sentence desc

zero-shot learning audio classification semantic embeddings acoustic-semantic projection label/sentence embeddings

发现论文，激发创造

基于音频的零样本学习音乐分类和标记

本文研究了音乐领域中的零样本学习，并组织了两个不同的副信息设置，探讨人类标记的属性信息和一般词语语义信息的适用性，在音乐分类和多标签零样本学习方面提出了数据分割方案和评估设置，并报告了实验结果。

Jul, 2019

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

May, 2020

无监督学习语义音频表征

通过无监督的三元组损失学习方法，得到音频谱图的低维嵌入，用于检索和分类声音事件，在有限监督下实现了两倍于最先进方法的分类准确率。

Nov, 2017

泛零样本音频到意图分类

利用仅有每个意图几个样本文本句子的泛化零样本音频到意图分类框架，该框架使用只有音频的数据，通过训练有监督的音频到意图分类器和利用神经音频合成器生成音频嵌入，使用余弦相似度对未见过的意图进行泛化零样本分类，并通过多模态训练策略将词汇信息融入音频表征来提高泛化零样本性能。相较于仅使用音频训练，我们的多模态训练方法提高了 SLURP 和内部目标导向对话数据集上未见过的意图的零样本意图分类准确率分别为 2.75％和 18.2％。

Nov, 2023

音乐分类与标记中的零样本学习和知识迁移

本研究探讨零样本学习在音乐分类和标记任务中的应用，提出了将音频和标记空间映射到单一语义空间并进行知识传递的方法，以验证其在不同音乐语料库中的泛化能力。

Jun, 2019

语义辅助音频分类框架

本文提出了一个语义辅助的音频分类框架 SemanticAC，它通过利用标签中的语义信息，保证音频信号与标签之间的语义一致性，从而实现更好的性能。通过在 ESC-50 和 US8K 两个音频数据集上进行广泛实验，验证了该方法能够持续优于其他音频分类方法。

Feb, 2023

将语义知识融合应用于零样本文本分类

本文提出了一个两阶段的框架，结合了数据扩充和特征扩充来解决零样本文本分类问题，同时将四种语义知识结构（词嵌入，类别描述，类层次结构和通用知识图谱）纳入到该框架中，实验结果表明，该框架的单独和联合两个阶段相比基线和最近的方法均获得了最佳的整体准确率。

Mar, 2019

通过度量学习提高语义嵌入一致性，用于零样本分类

本文提出了一种新的零样本图像分类方法，通过度量学习来控制图像的语义嵌入，实现了不需要在训练阶段使用类别的零样本学习，仅需在地面实况中提供以图像 / 属性为对的约束关系，使得学习模型可以预测一个测试图像与给定属性的一致性，并且该方法在四个挑战性数据集上取得了最好的效果。

Jul, 2016

通过语义嵌入的凸组合实现零样本学习

本文介绍了一种简单的图像嵌入系统构建方法，可以从现有的任何 n-way 图像分类器和语义词嵌入模型中构建，该方法通过使用类标签嵌入向量的凸组合将图像映射到语义嵌入空间中，不需要进行额外的训练，该方法在 ImageNet 零样本学习任务上表现优异。

Dec, 2013

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022