可变形音频变压器用于音频事件检测
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。
Sep, 2023
本文介绍了一种新颖的变形注意力模块,提出了 Deformable Attention Transformer,通过变形注意力实现了基于图像分类和密集预测任务的骨干模型,并在广泛的基准测试中取得了显著的改进。
Jan, 2022
本研究提出了 Deformable Video Transformer,利用动态预测小型视频数据块,根据运动信息决定模型在哪里观察视频,并优化变形注意机制,以获得更高的精度和更低的计算成本。
Mar, 2022
该研究提出了一种动态剪枝方法,通过利用数据在不同时间点的稳定性来降低推理成本,减少了 Transformer 网络中 self-attention 操作的次数,从而在维持高准确率的同时大幅度降低了模型复杂度。
Mar, 2022
在本研究中,我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击,我们证明了这些攻击不会传递到变形 Transformer,这是由于其稀疏的注意力结构。我们的实验表明,仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP,并且我们还展示了这些攻击能够有效支持不同的攻击者场景,因为它们能够在攻击者的控制下重定向注意力。
Nov, 2023
DAS 是一种快速且简单的全卷积方法,通过使用可变形卷积进行图片中相关区域的定位和可分离卷积实现高效,结合了现有 CNN 并通过门控机制传播相关信息,展示了在图像分类和目标检测领域,DAS 相较于其他 CNN 注意机制在减少 FLOPs 的同时取得了更好的性能提升(如在狗类数据集 Stanford Dogs 中提升了 4.47%,ImageNet 中提升了 1.91%,COCO AP 中提升了 3.3%)
Nov, 2023
Deformable DETR 提出了一种改进的 Transformer 注意力模块,只关注于围绕参考点的一小集采样点,能够更好地实现物体检测,尤其是在小物体上,并在 COCO 基准测试上得到了有效的实验结果。
Oct, 2020
通过利用较小的音频块作为输入,我们提出了一种名为 DPATD 的双相音频变压器模型,该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。
Oct, 2023
通过利用解码器的交叉注意映射以重新激活自注意模块,我们提出了一种名为 Self-DETR 的新型框架来解决 TAD 中的时间折叠问题,并通过保持所有层次上的高多样性注意来证明其有效性。
Aug, 2023
本文报道了一种基于 transformer 神经网络的多模式音视频分类方法,具有较高的准确度,同时还证明了在某些情况下,视觉信息对这个任务是非常有用的。
Dec, 2019