HTS-AT：一种用于声音分类和检测的层次化 Token - 语义音频变换器

Feb, 2022

HTS-AT：一种用于声音分类和检测的层次化 Token - 语义音频变换器

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection

Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick...

TL;DR本文介绍了一种采用分层结构和分词 - 语义模块的音频 Transformer 模型 HTS-AT，实现了音频分类和事件本地化的任务，并在三个数据集上取得了 SOTA 结果。相比于以往的音频 Transformer，HTS-AT 拥有更小的模型参数和更短的训练时间。

Abstract

audio classification is an important task of mapping audio samples into their corresponding labels. Recently, the transformer model with self-attention mechanisms has been adopted in this field. However, existing

audio classification transformer model self-attention mechanisms hierarchical structure event localization

发现论文，激发创造

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

多麦克风语音情感识别采用分层令牌－语义音频 Transformer 架构

研究探索多麦克风信号处理以提高情感分类准确性，并通过采用分层令牌语义音频变换器模型在现实环境中的测试，获得优越的性能。

Jun, 2024

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

ATST: 带有教师 - 学生 Transformer 的音频表示学习

本文提出了一个新的基于 Transformer 编码器的自监督学习模型 ——ATST，该模型可解决分段级别的音频自监督学习问题。在新的正对配对策略的支持下，ATST 模型在多项下游任务中实现了最新的最佳表现。

Apr, 2022

理解自监督音频 Transformer 的自注意力

本文介绍了多种针对 Self-supervised Audio Transformers 中注意力机制分析的策略，包括解释每种类型的注意力机制的功能、提供可视化工具以了解多头自注意力、重要性排名策略以识别关键注意力，以及注意力精炼技术以提高模型性能。

Jun, 2020

自监督音频师生 Transformer 用于剪辑和帧任务

本文提出了 ATST-Clip 和 ATST-Frame 两种自监督学习方法，分别负责学习音频剪辑级别和帧级别表示，并且利用知识蒸馏进一步提高了性能。其中，ATST-Frame 在音频帧事件检测任务上取得了最先进的表现。

Jun, 2023

音频感知的查询增强变换器用于音频 - 视觉分割

通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征，我们提出了一种新颖的音频感知查询增强转换器 (AuTR)，用于解决音频 - 视觉分割任务。实验结果表明，我们的方法在多声音和开放场景中具有更好的普适性和性能优势。

Jul, 2023

EAT：高效音频 Transformer 的自监督预训练

提出了高效音频 Transformer（EAT）模型，通过自监督训练范式和新颖的话语 - 帧目标（UFO）增强声音事件建模能力，探究了掩模策略在音频自监督学习中的关键性作用，并在多种音频相关任务中实现了最先进的性能，并且相比现有的音频自监督学习模型，预训练速度提升了约 15 倍。

Jan, 2024

基于注意力神经网络的目标说话人分离

本文提出了一种基于注意力机制的神经网络（Atss-Net）来进行基于深度学习的目标说话人分离和语音增强，实验结果表明 Atss-Net 在频谱图领域比 CNN-LSTM 架构更有效，并且在语音增强方面也具有良好的性能。

May, 2020

AAT：音频变换器在不同声学识别任务中的应用

提出了一种名为 AAT 的基于 Adapter 调谐的高效微调方法，通过冻结音频 Transformer 模型并插入额外可学习的 Adapter，在不损害模型原始普适性的基础上，有效地获取下游任务知识。大量实验证明，该方法在仅优化 7.118% 的参数的情况下，实现了与完全微调相媲美甚至更优的性能，并显示了对其他微调方法的优越性。

Jan, 2024