基于离散余弦变换的去相关注意力视觉转换
本研究针对 Vision Transformer 深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术 AttnScale 和 FeatScale,能够有效克服与注意力折叠和补丁均匀性等相关的 ViT 训练伪像。
Mar, 2022
本文提出了一种在离散余弦变换(DCT)表示上执行语义分割的方法,通过重新排列 DCT 系数以形成首选输入类型,并针对 DCT 输入量调整现有网络来实现。该方法的准确性接近于 RGB 模型,在网络复杂性相当的情况下,适当选择 DCT 分量可以使用 36%的 DCT 系数获得相同水平的准确性,并且可以显示该方法的鲁棒性在量化误差下。据我们所知,这是第一篇探索 DCT 表示上的语义分割的论文。
Jul, 2019
本文介绍了一种新颖的变形注意力模块,提出了 Deformable Attention Transformer,通过变形注意力实现了基于图像分类和密集预测任务的骨干模型,并在广泛的基准测试中取得了显著的改进。
Jan, 2022
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。
Sep, 2023
通过使用正交滤波器实现的一个通道注意机制,名为 OrthoNet,在 Birds、MS-COCO 和 Places356 等数据集上显示出卓越的性能,与 FcaNet 和其他注意机制相比具有竞争力,进一步研究了网络中的位置和通道分组等实现通道注意的一般原则。
Nov, 2023
本文提出了一种新的架构,利用基于距离加权变换器的方法 (DWT) 来更好地理解图像组成部分之间的关系,并结合卷积神经网络 (CNNs) 和 DWT 块的优势来增强图像完成过程,通过编码全局依赖并计算基于距离加权的特征图,有效减少了视觉的歧义问题。同时,引入了残差快速傅里叶卷积 (Res-FFC) 块来结合编码器的跳跃特征与生成器提供的粗糙特征,进一步改进了对重复纹理的生成,同时还提出了一种简单有效的技术来归一化卷积的非零值,并通过细调网络层来规范梯度范数,提供了一个高效的训练稳定器。通过在三个具有挑战性的数据集上进行广泛的定量和定性实验,证明了我们提出的模型相比现有方法的优越性。
Oct, 2023
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
通过奇异值分解研究图像视觉变换器中的自注意力机制,发现早期层更倾向于关注相似的标记,而后期层则更多地注意不相似的标记,这些奇异值表示的特征之间的相互作用具有可解释性,从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。
Apr, 2024
本研究提出了 Deformable Video Transformer,利用动态预测小型视频数据块,根据运动信息决定模型在哪里观察视频,并优化变形注意机制,以获得更高的精度和更低的计算成本。
Mar, 2022