ATGNN：音频标签图神经网络

Nov, 2023

ATGNN: Audio Tagging Graph Neural Network

Shubhr Singh, Christian J. Steinmetz, Emmanouil Benetos, Huy Phan, Dan Stowell

TL;DR本文介绍了一种名为 ATGNN 的新颖图神经网络架构，通过将谱图视作图结构来处理，实现了 CNN 的能力与图神经网络的全局信息共享能力的结合，并映射了可学习的类别嵌入和相应谱图区域之间的语义关系，通过在两个音频标记任务中的表现，发现 ATGNN 在 FSD50K 数据集上达到 0.585 的 mAP，在 AudioSet-balanced 数据集上达到 0.335 的 mAP，与基于 Transformer 的模型相比具有相当的结果，但参数数量显著较少。

Abstract

deep learning models such as cnns and transformers have achieved impressive performance for end-to-end →

deep learning models cnns transformers audio tagging atgnn

发现论文，激发创造

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

动态卷积神经网络作为高效的预训练音频模型

在大规模音频数据集中，通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型，本文通过 Transformer 与 CNN 的知识蒸馏，提出了一种高效的 CNN 模型，通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块，实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型，并且在下游任务中表现出更好的性能，达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。

Oct, 2023

端到端的光谱时域图注意力网络用于说话人验证防欺诈和语音深度伪造检测

本文提出了通过使用基于图注意力网络的声谱 - 时间表示学习方法，以及采用模型级别的图融合和图池化策略，进行深度伪造声音检测的方法，在 ASVspoof 2019 数据库上达到了 1.06% 的等误率，是目前为止报告的最佳结果之一。

Jul, 2021

音频 Transformer 的 Patchout 高效训练

本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。

Oct, 2021

环境声音分类的深度学习方法第二次比较之正确的音频标记

本研究旨在通过对最大弱标注声音事件数据集 AudioSet 上的最新两类神经架构文章和加权后的 CNN 文章以及关键优化参数进行深入实验，为研究者和实践者提供性能，效率和优化过程之间的平衡见解。

Mar, 2022

使用深度卷积神经网络进行自动标记

本篇论文采用全卷积神经网络实现一种基于内容的自动音乐标记算法，通过在 MagnaTagATune 数据集上的实验，我们发现采用 mel-spectrogram 作为输入，4 层结构的全卷积神经网络在 AUC-ROC 分数方面达到了最先进的性能，但在 Million Song 数据集上则表明，更深的模型优于 4 层结构。实验证明 mel-spectrogram 是一种有效的时频表示方法，更复杂的模型能够从更多的训练数据中受益。

Jun, 2016

音频字幕转换器

该论文提出了一种全转换器的音频字幕生成器，该生成器能更好地模拟音频信号中的全局信息以及音频事件之间的时间关系，并且在最大的音频字幕数据集上显示出与其他最先进方法相竞争的性能。

Jul, 2021

光谱时空图神经网络用于轨迹预测

这篇论文提出了一种名为 SpecTGNN 的图神经网络，它结合了时域和频域中的信息来实现对自主车辆和社交移动机器人周围环境的运动预测，获得了目前公开数据集上预测精度方面的最优表现。

Jun, 2021

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

图形转换器用于图形到序列学习

本文提出了一种名为 “图变压器” 的模型，使用显式关系编码并允许两个远程节点之间的直接通信。与局部邻域信息交换的图神经网络不同，它提供了一种更有效的全局图结构建模方式，并在抽象意义表示文本生成和基于句法的神经机器翻译应用中表现出优异的性能。

Nov, 2019