音频 Transformer 的 Patchout 高效训练

Oct, 2021

音频 Transformer 的 Patchout 高效训练

Efficient Training of Audio Transformers with Patchout

Khaled Koutini, Jan Schlüter, Hamid Eghbal-zadeh, Gerhard Widmer

TL;DR本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。

Abstract

The great success of transformer-based models in natural language processing (NLP) has led to various attempts at adapting these architectures to other domains such as vision and →

transformer-based models vision audio computational complexity spectrograms

发现论文，激发创造

动态卷积神经网络作为高效的预训练音频模型

在大规模音频数据集中，通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型，本文通过 Transformer 与 CNN 的知识蒸馏，提出了一种高效的 CNN 模型，通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块，实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型，并且在下游任务中表现出更好的性能，达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。

Oct, 2023

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

注意力还是卷积：用于推理效率的音频语言模型中的 Transformer 编码器

通过本文研究发现，使用简单的自监督预训练音频模型能够实现与复杂的预训练模型相媲美的推理效率，同时采用自注意力模块与卷积模块相结合的语音转换器能够在 ASR 上取得最先进的性能表现，同时使用较低位权重量化技术的神经网络的简单方法，能够提高效率并防止在量化模块之间传播误差。

Nov, 2023

由粗到细：音频谱图变压器的高效训练

通过连接粗到细的想法，将变压器模型应用于低分辨率数据进行优化训练，然后在课程学习策略下，使用高分辨率数据进行微调，实验结果表明，这种 AST 的训练机制导致性能提升，收敛速度更快，需要的计算资源和时间更少。

Jan, 2024

带 Patchout 和文本引导的高效音频字幕 Transformer

本文提出了一种基于全 Transformer 架构的自动音频字幕生成方法，包含 Patchout、细化预训练分类模型和迁移学习、Mixup 数据增强等技术来提高音频字幕的性能和减少计算复杂度，研究结果在 DCASE Challenge 2022 中荣获评审团奖项。

Apr, 2023

音频字幕转换器

该论文提出了一种全转换器的音频字幕生成器，该生成器能更好地模拟音频信号中的全局信息以及音频事件之间的时间关系，并且在最大的音频字幕数据集上显示出与其他最先进方法相竞争的性能。

Jul, 2021

ATGNN：音频标签图神经网络

本文介绍了一种名为 ATGNN 的新颖图神经网络架构，通过将谱图视作图结构来处理，实现了 CNN 的能力与图神经网络的全局信息共享能力的结合，并映射了可学习的类别嵌入和相应谱图区域之间的语义关系，通过在两个音频标记任务中的表现，发现 ATGNN 在 FSD50K 数据集上达到 0.585 的 mAP，在 AudioSet-balanced 数据集上达到 0.335 的 mAP，与基于 Transformer 的模型相比具有相当的结果，但参数数量显著较少。

Nov, 2023

调谐：临床环境中有限数据的音频分类器性能分析

通过深度学习模型在临床环境中评估音频分类，针对反映真实世界前瞻性数据收集的小数据集，我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型，以及像 ViT、SWIN 和 AST 这样的 Transformer 模型，并将它们与预训练的音频模型（如 YAMNet 和 VGGish）进行比较。我们的方法强调了在特定临床数据上微调之前，在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术，发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明，在小数据集背景下，CNN 模型可以达到或超过 Transformer 模型的性能，其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性，为依赖音频分类的临床诊断提供了有价值的见解。

Feb, 2024

参数高效的多模态变压器用于视频表示学习

本研究针对音视频表示学习中的多模态转换器，通过分解模态特定和模态共享部分，基于低秩逼近提出了一种新的参数共享方案来降低其参数，并提出一种基于 CNN 嵌入空间的实例相似性负采样方法，可以将模型从头开始训练，并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。

Dec, 2020

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021