语义辅助音频分类框架

Feb, 2023

SemanticAC: Semantics-Assisted Framework for Audio Classification

Yicheng Xiao, Yue Ma, Shuyan Li, Hantao Zhou, Ran Liao...

TL;DR本文提出了一个语义辅助的音频分类框架 SemanticAC，它通过利用标签中的语义信息，保证音频信号与标签之间的语义一致性，从而实现更好的性能。通过在 ESC-50 和 US8K 两个音频数据集上进行广泛实验，验证了该方法能够持续优于其他音频分类方法。

Abstract

In this paper, we propose semanticac, a semantics-assisted framework for audio classification to better leverage the semantic information. Unlike conventional →

semanticac audio classification language model text encoder semantic consistency

发现论文，激发创造

基于语义嵌入的零样本音频分类

本文通过使用从声音类别的文本标签和句子描述中提取的语义嵌入来进行零样本学习音频分类，并采用双线性兼容性框架在音频实例和声音类别之间学习声学 - 语义投影，即声学嵌入和语义嵌入。最终采用线性兼容性函数进行音频分类，其中度量声学嵌入和语义嵌入的兼容性。通过实验结果表明：“label/sentence embeddings” 与不同语言模型生成的嵌入的混合连接的分类结果进一步改善了分类性能。

Nov, 2020

通过融合声学和语义信息来提高自动音频字幕生成的性能

本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型，使用预训练的 ResNet38 来初始化预训练关键字编码器，并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码，实验证明该模型在 Clotho 数据集上达到了最先进的性能。

Oct, 2021

将语义引入语音编码器

本文提出了一种无监督的任务无关方法，将大型语言模型中的语义信息融合进入自监督语音编码器，提高了其在意图分类，名称实体识别及槽填充等方面的性能，使其达到了有监督方法同等的效果，为已有的语音编码器的无监督实现提供了可行性证明。

Nov, 2022

无监督学习语义音频表征

通过无监督的三元组损失学习方法，得到音频谱图的低维嵌入，用于检索和分类声音事件，在有限监督下实现了两倍于最先进方法的分类准确率。

Nov, 2017

通过利用音频场景语义实现自动图像着色

通过利用音频的额外语义信息，本文提出了一种新颖的自动图像上色网络（AIAIC），它由三个阶段组成，通过颜色图像语义作为桥梁的预训练、学习音频和视觉场景之间的颜色语义相关性以及利用隐式音频语义表示实现音频引导的上色，实验表明音频引导能够有效改善自动着色的性能，特别是对于那些仅仅从视觉模态理解起来比较困难的场景。

Jan, 2024

自动化机器学习的语义代码分类

本文介绍了一种可以通过一系列简单操作控制输出的自动机器学习的应用范围，提出了一种语义代码分类任务，并探讨了在自然语言到机器学习（NL2ML）数据集上解决此问题的方法。

Jan, 2022

语义音视频导航

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

通过声学和语义合作解码重新思考多模态视角下的语音识别

该论文提出了一种声学和语义协同解码器 ASRD，可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽，可以防止在训练期间的信息泄漏，并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明，ASRD 可以显著提高 ASR 的准确性。

May, 2023

SemantiCodec：一种用于通用声音的超低比特率语义音频编解码器

利用语言模型和音频编解码技术，SemantiCodec 是一种能够以非常低的比特率将各种类型的音频压缩为每秒少于一百个标记的新型编解码器，具有更高的重构质量和更丰富的语义信息。

Apr, 2024