FlexiAST：AST 所需的灵活性

Jul, 2023

FlexiAST: Flexibility is What AST Needs

Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak

TL;DR这篇论文的目标是给予音频谱图变换器（AST）补丁尺寸的灵活性，通过提出一种训练过程来为标准 AST 模型提供灵活性，使其在推理阶段可以使用各种补丁尺寸，实验证明 FlexiAST 在不同数据集的音频分类任务中，在不同补丁尺寸下保持了与标准 AST 模型类似的性能。

Abstract

The objective of this work is to give patch-size flexibility to Audio Spectrogram Transformers (AST). Recent advancements in ASTs have shown superior performance in various audio-based tasks. However, the

audio spectrogram transformers patch-size flexibility performance training procedure flexiast

发现论文，激发创造

由粗到细：音频谱图变压器的高效训练

通过连接粗到细的想法，将变压器模型应用于低分辨率数据进行优化训练，然后在课程学习策略下，使用高分辨率数据进行微调，实验结果表明，这种 AST 的训练机制导致性能提升，收敛速度更快，需要的计算资源和时间更少。

Jan, 2024

MAST：多尺度音频频谱变换器

本文提出了一个多尺度音频谱图变换器（MAST），用于音频分类和自监督学习，在 LAPE 基准测试上，相较于 Audio Spectrogram Transformer（AST）和 SSAST，MAST 和 SS‐MAST 具有更高的性能，并已将所有代码公开在 GitHub 上。

Nov, 2022

FlexiViT：一模型多尺寸贴片处理

本文介绍一种叫做 FlexiViT 的方法，能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算，从而提高计算效率和精度。通过实验发现，FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好，易于应用于大多数基于 ViT 结构的计算任务。

Dec, 2022

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

多尺度音频光谱变换器用于有效的音频分类

这篇研究提出了一种名为多尺度音频谱变换器（MAST）的方法，它采用分层表示学习来提高音频分类的效率，相较于 AST，MAST 在没有外部训练数据的情况下，在 Kinetics-Sounds，Epic-Kitchens-100 和 VGGSound 数据集上的准确度提高了 22.2％、4.4％和 4.7％，同时比 AST 更加高效。

Mar, 2023

FastAST：音频谱图变换器的加速：通过令牌合并和跨模型知识蒸馏

FastAST 是将 Token Merging (ToMe) 和 Cross-Model Knowledge Distillation (CMKD) 集成到 Audio Spectrogram Transformer (AST) 框架中，提高音频分类的速度，同时保持较高的准确性。它是实现实时、资源高效的音频分析的一步。

Jun, 2024

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

自适应点引导变形注意力网络用于本地特征一致匹配

本文提出了一种自适应的、采用了诸多优点的区域引导 Transformer 网络 (ASTR) 来解决图像的局部特征匹配问题，同时考虑了局部一致性和尺度变化的因素，实验结果证明 ASTR 在五个标准基准数据集上的表现超越了现有最先进的方法。

Mar, 2023

基于音频谱图变换的 Patch-Mix 对比学习在呼吸音分类中的应用

这项研究使用深度学习算法和新型增强技术，通过预处理于视听数据集上的模型实现了高效的呼吸声分类以及肺病诊断，取得了 ICBHI 数据集上 4.08% 的最高成绩。

May, 2023

音频频谱变换器中基于频率归一化的录音设备通用性改进

本文针对机器学习中训练和应用时间所见数据差异这一主要问题，研究了声场分类中不匹配的录音设备情况。我们发现，通过频率方面的规范化进行输入和卷积神经网络中隐藏层激活的处理，可以减少记录设备之间的差异。本文的主要目标是将这种方法应用于成为声场分类主流模型的音频谱图转换器上，并且针对该模型考察了不同的录音设备特征如何被编码到隐藏层激活中。基于这个观察，我们推断出对输入谱图进行抑制可达到最有效的去除记录设备特征的效果。我们提出了一种频率居中的谱图操作，平均提高了未经训练的录音设备上的 ASC 性能达 18.2 个百分点。

Jun, 2023