Nov, 2023

ATGNN:音频标签图神经网络

TL;DR本文介绍了一种名为 ATGNN 的新颖图神经网络架构,通过将谱图视作图结构来处理,实现了 CNN 的能力与图神经网络的全局信息共享能力的结合,并映射了可学习的类别嵌入和相应谱图区域之间的语义关系,通过在两个音频标记任务中的表现,发现 ATGNN 在 FSD50K 数据集上达到 0.585 的 mAP,在 AudioSet-balanced 数据集上达到 0.335 的 mAP,与基于 Transformer 的模型相比具有相当的结果,但参数数量显著较少。