本文提出了 Tandem 自注意编码和池化(SAEP)机制来获取短语音说话人的辨别性 embedding,该方法利用了自注意力和位置编码,证明了该方法的有效性是比 ResNet-34,ResNet-50 和 x-vector 更高效的。
Aug, 2020
本文研究了基于 Transformer 的自注意力(SA)提取序列特征方案,在注意力地图重用方面做了全面的研究,并证明了其在加速推理方面具有显著的优势。实验结果表明,注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。
Jan, 2023
本文提出改进的归一化自注意力网络,并针对 Transformer 处理对象几何结构的局限性,引入了一种几何感知自注意力机制,将两个模型结合应用于图像字幕任务并在 MS-COCO 数据集上取得了优异实验结果,同时在视频字幕,机器翻译和视觉问答等任务上也展现了较强的通用性。
Mar, 2020
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
本研究介绍了一个基于尺度不变特征转换的加权块间关系分析方法,并发现该定量分析不仅是 ViT 中 MSA 机制解释的有效补充,还可以应用于模型推断中的假相关性发现和提示,以及引导模型预训练加速。
Nov, 2022
我们引入了一种新的注意力机制,称为结构自注意力(StructSA),它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块,我们开发了结构视觉转换器(StructViT),并在图像和视频分类任务上评估其有效性,在 ImageNet-1K,Kinetics-400,Something-Something V1&V2,Diving-48 和 FineGym 数据集上取得了最先进的结果。
Apr, 2024
我们提出了一种不需要训练参数的自注意力近似方法 SPSA,该方法具有线性复杂度,结合卷积捕获全局空间特征,并在图像分类和目标检测任务中进行了大量实验验证其有效性。
Jul, 2023
本研究提出了一种新颖的令牌选择性注意力方法,即 ToSA,它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA,我们能够显著减少计算成本,同时在 ImageNet 分类基准上保持准确性,并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。
Jun, 2024
本文介绍了多种针对 Self-supervised Audio Transformers 中注意力机制分析的策略,包括解释每种类型的注意力机制的功能、提供可视化工具以了解多头自注意力、重要性排名策略以识别关键注意力,以及注意力精炼技术以提高模型性能。
Jun, 2020
提出了一种新的基于交叉注意力的 SLU 模型 (CASLU),通过利用语音的音素序列来对抗 ASR 误差,实现同时捕捉输入的语音和语义特征,并在下游 NLU 任务中提高鲁棒性,大量实验证明了其有效性。
Mar, 2022