FlexiAST:AST 所需的灵活性
通过连接粗到细的想法,将变压器模型应用于低分辨率数据进行优化训练,然后在课程学习策略下,使用高分辨率数据进行微调,实验结果表明,这种 AST 的训练机制导致性能提升,收敛速度更快,需要的计算资源和时间更少。
Jan, 2024
本文提出了一个多尺度音频谱图变换器(MAST),用于音频分类和自监督学习,在 LAPE 基准测试上,相较于 Audio Spectrogram Transformer(AST)和 SSAST,MAST 和 SS‐MAST 具有更高的性能,并已将所有代码公开在 GitHub 上。
Nov, 2022
本文介绍一种叫做 FlexiViT 的方法,能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算,从而提高计算效率和精度。通过实验发现,FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好,易于应用于大多数基于 ViT 结构的计算任务。
Dec, 2022
本文提出了一种使用未标注数据进行自监督预训练的方法,使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练,从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架,也是 AST 的自监督学习框架的首次探索。
Oct, 2021
这篇研究提出了一种名为多尺度音频谱变换器(MAST)的方法,它采用分层表示学习来提高音频分类的效率,相较于 AST,MAST 在没有外部训练数据的情况下,在 Kinetics-Sounds,Epic-Kitchens-100 和 VGGSound 数据集上的准确度提高了 22.2%、4.4%和 4.7%,同时比 AST 更加高效。
Mar, 2023
FastAST 是将 Token Merging (ToMe) 和 Cross-Model Knowledge Distillation (CMKD) 集成到 Audio Spectrogram Transformer (AST) 框架中,提高音频分类的速度,同时保持较高的准确性。它是实现实时、资源高效的音频分析的一步。
Jun, 2024
本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer(AST),在多个音频分类数据集上取得了新的最优结果。
Apr, 2021
本文提出了一种自适应的、采用了诸多优点的区域引导 Transformer 网络 (ASTR) 来解决图像的局部特征匹配问题,同时考虑了局部一致性和尺度变化的因素,实验结果证明 ASTR 在五个标准基准数据集上的表现超越了现有最先进的方法。
Mar, 2023
这项研究使用深度学习算法和新型增强技术,通过预处理于视听数据集上的模型实现了高效的呼吸声分类以及肺病诊断,取得了 ICBHI 数据集上 4.08% 的最高成绩。
May, 2023
本文针对机器学习中训练和应用时间所见数据差异这一主要问题,研究了声场分类中不匹配的录音设备情况。我们发现,通过频率方面的规范化进行输入和卷积神经网络中隐藏层激活的处理,可以减少记录设备之间的差异。本文的主要目标是将这种方法应用于成为声场分类主流模型的音频谱图转换器上,并且针对该模型考察了不同的录音设备特征如何被编码到隐藏层激活中。基于这个观察,我们推断出对输入谱图进行抑制可达到最有效的去除记录设备特征的效果。我们提出了一种频率居中的谱图操作,平均提高了未经训练的录音设备上的 ASC 性能达 18.2 个百分点。
Jun, 2023