语音识别中的相似性和基于内容的音素自注意力机制

Mar, 2022

语音识别中的相似性和基于内容的音素自注意力机制

Similarity and Content-based Phonetic Self Attention for Speech Recognition

Kyuhong Shim, Wonyong Sung

TL;DR通过提出改进的语音注意力模型，即基于相似性和基于内容两种不同类型语音自注意力模型，本研究通过简单修改增强了模型对语音特征的提取能力，从而在低层替换自我注意力结构后，提高了语音识别性能而不增加延迟和参数大小。

Abstract

transformer-based speech recognition models have achieved great success due to the self-attention (SA) mechanism that utilizes every frame

transformer speech recognition self-attention phonetic features similarity-based attention

发现论文，激发创造

自注意力编码与池化在说话人识别中的应用

本文提出了 Tandem 自注意编码和池化（SAEP）机制来获取短语音说话人的辨别性 embedding，该方法利用了自注意力和位置编码，证明了该方法的有效性是比 ResNet-34，ResNet-50 和 x-vector 更高效的。

Aug, 2020

探索基于注意力图复用的高效 Transformer 神经网络

本文研究了基于 Transformer 的自注意力（SA）提取序列特征方案，在注意力地图重用方面做了全面的研究，并证明了其在加速推理方面具有显著的优势。实验结果表明，注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。

Jan, 2023

基于规范化和几何意识的自注意力网络在图像字幕生成中的应用

本文提出改进的归一化自注意力网络，并针对 Transformer 处理对象几何结构的局限性，引入了一种几何感知自注意力机制，将两个模型结合应用于图像字幕任务并在 MS-COCO 数据集上取得了优异实验结果，同时在视频字幕，机器翻译和视觉问答等任务上也展现了较强的通用性。

Mar, 2020

基于 Transformer 的端到端语音识别中简化的自注意力机制

本文提出了一种简化的自我注意力（SSAN）层，用于 Transformer 模型的端到端语音识别任务中，以降低模型复杂度和维护良好性能，并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明，我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少，在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低，而且在 20000 小时的大规模任务中，模型失去识别性能。

May, 2020

从语义角度揭示视觉 Transformer 中的自注意力机制：分析与应用

本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法，并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充，还可以应用于模型推断中的假相关性发现和提示，以及引导模型预训练加速。

Nov, 2022

学习视觉 Transformer 的相关结构

我们引入了一种新的注意力机制，称为结构自注意力（StructSA），它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块，我们开发了结构视觉转换器（StructViT），并在图像和视频分类任务上评估其有效性，在 ImageNet-1K，Kinetics-400，Something-Something V1＆V2，Diving-48 和 FineGym 数据集上取得了最先进的结果。

Apr, 2024

简单无参数的自注意力近似

我们提出了一种不需要训练参数的自注意力近似方法 SPSA，该方法具有线性复杂度，结合卷积捕获全局空间特征，并在图像分类和目标检测任务中进行了大量实验验证其有效性。

Jul, 2023

ToSA：用于高效视觉 Transformer 的令牌选择性注意力

本研究提出了一种新颖的令牌选择性注意力方法，即 ToSA，它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA，我们能够显著减少计算成本，同时在 ImageNet 分类基准上保持准确性，并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。

Jun, 2024

理解自监督音频 Transformer 的自注意力

本文介绍了多种针对 Self-supervised Audio Transformers 中注意力机制分析的策略，包括解释每种类型的注意力机制的功能、提供可视化工具以了解多头自注意力、重要性排名策略以识别关键注意力，以及注意力精炼技术以提高模型性能。

Jun, 2020

通过音素序列和 ASR 假设之间的交叉注意力构建强健的口语理解

提出了一种新的基于交叉注意力的 SLU 模型 (CASLU)，通过利用语音的音素序列来对抗 ASR 误差，实现同时捕捉输入的语音和语义特征，并在下游 NLU 任务中提高鲁棒性，大量实验证明了其有效性。

Mar, 2022