理解自监督音频 Transformer 的自注意力
本文提出了一种使用未标注数据进行自监督预训练的方法,使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练,从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架,也是 AST 的自监督学习框架的首次探索。
Oct, 2021
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
本文提出了一种自我注意力归因方法,通过对 BERT 等模型进行广泛的研究,发现这种方法能够用于识别重要的注意力头,构建注意力树,揭示变压器内的分层交互,以及可用作敌对模式实现非定向攻击。
Apr, 2020
本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer(AST),在多个音频分类数据集上取得了新的最优结果。
Apr, 2021
本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法,并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充,还可以应用于模型推断中的假相关性发现和提示,以及引导模型预训练加速。
Nov, 2022
通过使用来自相关领域的外部知识资源,在 KSAT 中引入了知识注入的自我关注层,从而实现了对多个领域特定上下文的集成。KSAT 提供了控制从数据中学习与从知识中学习之间的权衡的机制,并与其他知识注入基线相竞争,显着优于使用精调进行领域特定任务的基线。
Oct, 2022
本文介绍了一种采用分层结构和分词 - 语义模块的音频 Transformer 模型 HTS-AT,实现了音频分类和事件本地化的任务,并在三个数据集上取得了 SOTA 结果。相比于以往的音频 Transformer,HTS-AT 拥有更小的模型参数和更短的训练时间。
Feb, 2022
本研究通过提出对 Transformer 模型的自注意力机制进行改进,提出了 Adversarial Self-Attention(ASA)机制,旨在抑制模型对部分特征的依赖以及探索更广泛的语义,实现更好的泛化性能和鲁棒性。实验结果表明,在预训练和微调阶段中,使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升,这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。
Jun, 2022