可变形音频变压器用于音频事件检测

Dec, 2023

可变形音频变压器用于音频事件检测

Deformable Audio Transformer for Audio Event Detection

Wentao Zhu

TL;DR基于变形注意力和金字塔 Transformer 骨干，提出了一种用于音频识别的新型变形音频 Transformer，名为 DATAR，解决了自注意力计算中的二次复杂度问题，适用于低资源环境和移动 / 边缘设备，并通过引入学习输入适配器对变形注意力图计算进行增强，实现了最先进的性能。

Abstract

transformers have achieved promising results on a variety of tasks. However, the quadratic complexity in self-attention computation has limited the applications, especially in →

transformers self-attention computation low-resource settings mobile or edge devices deformable audio transformer

发现论文，激发创造

DAT++：具有可变形注意力的空间动态视觉变换器

通过引入一种新的可变形多头注意力模块，Deformable Attention Transformer（DAT）有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题，从而提高视觉识别任务的性能。实验证明，DAT 在各种视觉识别基准测试中取得了最先进的结果，包括 85.9% 的 ImageNet 准确率，54.5 和 47.0 的 MS-COCO 实例分割 mAP，以及 51.5 的 ADE20K 语义分割 mIoU。

Sep, 2023

具有可变形注意力的视觉 Transformer

本文介绍了一种新颖的变形注意力模块，提出了 Deformable Attention Transformer，通过变形注意力实现了基于图像分类和密集预测任务的骨干模型，并在广泛的基准测试中取得了显著的改进。

Jan, 2022

可变形视频转换器

本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Mar, 2022

Delta Keyword Transformer: 通过动态裁剪的多头自注意力将 Transformer 移植到边缘

该研究提出了一种动态剪枝方法，通过利用数据在不同时间点的稳定性来降低推理成本，减少了 Transformer 网络中 self-attention 操作的次数，从而在维持高准确率的同时大幅度降低了模型复杂度。

Mar, 2022

注意力不足有序化！通过合作对抗修补欺骗可变形视觉 Transformer

在本研究中，我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击，我们证明了这些攻击不会传递到变形 Transformer，这是由于其稀疏的注意力结构。我们的实验表明，仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP，并且我们还展示了这些攻击能够有效支持不同的攻击者场景，因为它们能够在攻击者的控制下重定向注意力。

Nov, 2023

DAS：一种用于捕获 CNN 中显著信息的变形注意力方法

DAS 是一种快速且简单的全卷积方法，通过使用可变形卷积进行图片中相关区域的定位和可分离卷积实现高效，结合了现有 CNN 并通过门控机制传播相关信息，展示了在图像分类和目标检测领域，DAS 相较于其他 CNN 注意机制在减少 FLOPs 的同时取得了更好的性能提升（如在狗类数据集 Stanford Dogs 中提升了 4.47%，ImageNet 中提升了 1.91%，COCO AP 中提升了 3.3%）

Nov, 2023

Deformable DETR：可变形 Transformer 完整目标检测

Deformable DETR 提出了一种改进的 Transformer 注意力模块，只关注于围绕参考点的一小集采样点，能够更好地实现物体检测，尤其是在小物体上，并在 COCO 基准测试上得到了有效的实验结果。

Oct, 2020

DPATD: 双阶段音频变压器降噪

通过利用较小的音频块作为输入，我们提出了一种名为 DPATD 的双相音频变压器模型，该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。

Oct, 2023

自反馈 DETR 用于时态行为检测

通过利用解码器的交叉注意映射以重新激活自注意模块，我们提出了一种名为 Self-DETR 的新型框架来解决 TAD 中的时间折叠问题，并通过保持所有层次上的高多样性注意来证明其有效性。

Aug, 2023

面向大规模分类和弱标注音频事件同步的音频视觉转换器架构

本文报道了一种基于 transformer 神经网络的多模式音视频分类方法，具有较高的准确度，同时还证明了在某些情况下，视觉信息对这个任务是非常有用的。

Dec, 2019