基于离散余弦变换的去相关注意力视觉转换

May, 2024

基于离散余弦变换的去相关注意力视觉转换

DCT-Based Decorrelated Attention for Vision Transformers

Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Koushik Biswas, Ahmet Cetin...

TL;DRTransformer 架构的关键是自注意机制，本文提出两种方法，一种是利用 DCT 系数进行初始化来增强辨别能力，另一种是基于 DCT 的压缩技术来减少计算开销。

Abstract

Central to the transformer architectures' effectiveness is the self-attention mechanism, a function that maps queries, keys, and values into a high-dimensional vector space. However, training the attention weights of queries, keys, and values is non-trivial from a state of random

transformer architectures self-attention mechanism initialization dct-based attention initialization dct-based compression technique

发现论文，激发创造

基于傅里叶域分析的深度视觉变换器中的防过度平滑技术：从理论到实践

本研究针对 Vision Transformer 深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术 AttnScale 和 FeatScale，能够有效克服与注意力折叠和补丁均匀性等相关的 ViT 训练伪像。

Mar, 2022

探索基于 DCT 表示的语义分割

本文提出了一种在离散余弦变换（DCT）表示上执行语义分割的方法，通过重新排列 DCT 系数以形成首选输入类型，并针对 DCT 输入量调整现有网络来实现。该方法的准确性接近于 RGB 模型，在网络复杂性相当的情况下，适当选择 DCT 分量可以使用 36％的 DCT 系数获得相同水平的准确性，并且可以显示该方法的鲁棒性在量化误差下。据我们所知，这是第一篇探索 DCT 表示上的语义分割的论文。

Jul, 2019

具有可变形注意力的视觉 Transformer

本文介绍了一种新颖的变形注意力模块，提出了 Deformable Attention Transformer，通过变形注意力实现了基于图像分类和密集预测任务的骨干模型，并在广泛的基准测试中取得了显著的改进。

Jan, 2022

DAT++：具有可变形注意力的空间动态视觉变换器

通过引入一种新的可变形多头注意力模块，Deformable Attention Transformer（DAT）有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题，从而提高视觉识别任务的性能。实验证明，DAT 在各种视觉识别基准测试中取得了最先进的结果，包括 85.9% 的 ImageNet 准确率，54.5 和 47.0 的 MS-COCO 实例分割 mAP，以及 51.5 的 ADE20K 语义分割 mIoU。

Sep, 2023

OrthoNets：正交通道注意力网络

通过使用正交滤波器实现的一个通道注意机制，名为 OrthoNet，在 Birds、MS-COCO 和 Places356 等数据集上显示出卓越的性能，与 FcaNet 和其他注意机制相比具有竞争力，进一步研究了网络中的位置和通道分组等实现通道注意的一般原则。

Nov, 2023

基于距离加权的 Transformer 网络用于图像补全

本文提出了一种新的架构，利用基于距离加权变换器的方法 (DWT) 来更好地理解图像组成部分之间的关系，并结合卷积神经网络 (CNNs) 和 DWT 块的优势来增强图像完成过程，通过编码全局依赖并计算基于距离加权的特征图，有效减少了视觉的歧义问题。同时，引入了残差快速傅里叶卷积 (Res-FFC) 块来结合编码器的跳跃特征与生成器提供的粗糙特征，进一步改进了对重复纹理的生成，同时还提出了一种简单有效的技术来归一化卷积的非零值，并通过细调网络层来规范梯度范数，提供了一个高效的训练稳定器。通过在三个具有挑战性的数据集上进行广泛的定量和定性实验，证明了我们提出的模型相比现有方法的优越性。

Oct, 2023

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

窗口化注意力在图像压缩中的应用

本文提出了一种基于 Transformer 和注意力机制的对称变压器框架，其中融合了局部感知机制和全局相关特征学习，在图像压缩方面表现出更好的效果。

Mar, 2022

视觉 Transformer 中查询 - 键交互的解析

通过奇异值分解研究图像视觉变换器中的自注意力机制，发现早期层更倾向于关注相似的标记，而后期层则更多地注意不相似的标记，这些奇异值表示的特征之间的相互作用具有可解释性，从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。

Apr, 2024

可变形视频转换器

本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Mar, 2022