理解自监督音频 Transformer 的自注意力

ICMLJun, 2020

理解自监督音频 Transformer 的自注意力

Understanding Self-Attention of Self-Supervised Audio Transformers

Shu-wen Yang, Andy T. Liu, Hung-yi Lee

TL;DR本文介绍了多种针对 Self-supervised Audio Transformers 中注意力机制分析的策略，包括解释每种类型的注意力机制的功能、提供可视化工具以了解多头自注意力、重要性排名策略以识别关键注意力，以及注意力精炼技术以提高模型性能。

Abstract

self-supervised audio transformers (SAT) enable great success in many downstream speech applications like ASR, but how they work has not been widely explored yet. In this work, we present multiple strategies for the analysis of →

self-supervised audio transformers attention mechanisms visualization tool importance ranking strategies attention refinement techniques

发现论文，激发创造

使用自我关注实现可解释的音乐标记

提出了一种基于自注意力机制的深度序列模型，用于解决音乐信息检索问题，并且相比于传统的卷积和递归神经网络方法，该模型更具可解释性且具有竞争力的结果。

Jun, 2019

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

自注意力声学模型

本篇论文探讨如何应用自注意力机制解决计算复杂度、模型稳定性和位置信息等问题，相比于 LSTM 模型，该模型不仅运算时间更快，而且更具可解释性。

Mar, 2018

KSAT: 知识注入的自注意力变形器 —— 整合多个领域特定语境

通过使用来自相关领域的外部知识资源，在 KSAT 中引入了知识注入的自我关注层，从而实现了对多个领域特定上下文的集成。KSAT 提供了控制从数据中学习与从知识中学习之间的权衡的机制，并与其他知识注入基线相竞争，显着优于使用精调进行领域特定任务的基线。

Oct, 2022

HTS-AT：一种用于声音分类和检测的层次化 Token - 语义音频变换器

本文介绍了一种采用分层结构和分词 - 语义模块的音频 Transformer 模型 HTS-AT，实现了音频分类和事件本地化的任务，并在三个数据集上取得了 SOTA 结果。相比于以往的音频 Transformer，HTS-AT 拥有更小的模型参数和更短的训练时间。

Feb, 2022

对抗式自注意力用于语言理解

本研究通过提出对 Transformer 模型的自注意力机制进行改进，提出了 Adversarial Self-Attention（ASA）机制，旨在抑制模型对部分特征的依赖以及探索更广泛的语义，实现更好的泛化性能和鲁棒性。实验结果表明，在预训练和微调阶段中，使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升，这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。

Jun, 2022