窗口化注意力在图像压缩中的应用
本研究提出了多通路结构的 Transformer 模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
Jul, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
本文提出一种新颖的本地自注意力模块 Slide Attention,使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习,适用于各种高级视觉 Transformer 模型,并在多项基准测试中实现了持续的性能改进。
Apr, 2023
本研究探讨了只使用注意力层进行图像压缩的可行性,并在我们的新模型 QPressFormer 中引入了学习的图像查询的概念,通过交叉注意力聚合补丁信息,然后进行量化和编码技术,通过对 Kodak、DIV2K 和 CLIC 数据集进行全面评估,显示了无卷积架构在图像压缩中达到了竞争性的性能。
Oct, 2023
本文探讨了 Local Vision Transformer 的前身 ——Vision Transformer 和其一种局部注意力机制 —— 局部连接的形式,并从 network regularization 角度分析了其权重的稀疏性、共享性以及动态性。此外作者还针对这种局部连接进行的实验证明它的有效性,并提供了开源实现代码。
Jun, 2021
本文提出了一种新的局部自注意机制 BOAT,该机制在特征空间中对局部窗口中的补丁进行聚类,并在每个聚类中进行自我注意。将 BOAT 集成进 CSWin 模型,实验结果表明,BOAT-CSWin 模型在多个基准数据集上表现良好,明显优于现有的卷积神经网络模型和视觉 Transformer。
Jan, 2022
DwinFormer 是一个层级编码器解码器架构,具有方向窗口(Dwin)注意力和全局自注意力(GSA)用于特征编码,通过在水平、垂直和深度方向分别执行注意力,在输入特征图的这些方向体积中有效地捕捉局部和全局信息,实验证明它在医学图像分割方面优于当前最先进的方法。
Jun, 2024
医学图像分析可以通过一种扎根于自注意机制的创新架构得到促进。传统的卷积神经网络(CNN)在捕捉像素级复杂空间和时间关系时需要帮助,而其卷积窗口的固定大小限制了输入波动。为了克服这些限制,我们提出了基于注意力模型而非卷积的新范式。这些模型作为传统 CNN 的替代品,表现出强大的建模能力和高效获取全局长范围上下文信息的能力。通过将非重叠(vanilla patching)和新颖的重叠移位补丁技术(S.P.T.s)相结合,我们的工作提供了一种解决注意力视觉模型所面临的关键挑战的方法,包括归纳偏差、权重共享、感受野限制和高分辨率数据处理。此外,我们还研究了适应不同图像尺寸到更高分辨率的新颖 Lancoz5 插值技术。实验证据验证了我们模型的一般化效果,并与现有方法进行了有利比较。特别是在充足数据的情况下,基于注意力的方法特别有效,尤其是在集成先进的数据增强方法来增强它们的鲁棒性时。
Apr, 2024
本文提出了名为 Dual Vision Transformer (Dual-ViT) 的新型 Transformer 结构,在保持准确度的前提下,通过综合运用语义路径和像素路径,将全局语义压缩成更高效的先验信息,进而实现了减少计算复杂度的目的,并在实验中表现出比 SOTA Transformer 结构更高的准确度。
Jul, 2022
本文通过引入窗口关注机制和金字塔池化等方法,成功将多尺度表征引入语义分割 ViT 中,进一步提高了性能和效率。研究结果表明,该模型具有更高的效率和更好的表现,并在 Cityscapes、ADE20K 和 COCO-Stuff 数据集上,取得了新的最优性能。
Jan, 2022