提出改进的模块设计,使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性,并在三个不同数据集上实现了有竞争力的性能表现。
May, 2023
本文介绍了一种利用新型有效的位置编码操作符来设计 Group Equivariant Vision Transformer(GE-ViT)模型来解决 Vision Transformer(ViT)模型中的内在等变性学习问题,通过实验在标准基准数据集上得出 GE-ViT 模型比不等变自注意力网络性能更好的结论。
Jun, 2023
通过一个简单的合成实验,我们展示了最先进的全卷积文字检测器固有的移位差异性。我们展示了如何进行小的体系结构更改,可以带来改善的移位平稳性和检测器输出的变化较小。我们提出了一个基于深度学习已有的文字检测基准的度量,用于量化移位可变性的程度。尽管所提出的架构更改不能完全恢复移位等价性,但添加平滑滤波器可以大大改善常见的文本数据集上的移位一致性。考虑到小偏移可能具有巨大的影响,我们建议将此工作中描述的指标扩展到常用的文本检测度量中,以便能够量化文本检测器的一致性。
Aug, 2022
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文提出了一个基于贪婪搜索的评估指标,用于评估目标检测模型的平移等变性,发现许多现代目标检测模型对输入图像的微小平移都非常敏感,并探究了文献中的解决方案及其有效性,揭示了这种平移变异性的程度和可能因素的贡献,为开发缓解或利用这种变异性的方法奠定基础。
Aug, 2020
本研究提出了一种新的共同关注等变神经网络,它不仅能够保留输入的结构信息,而且能够注意到数据中同时出现的变换,并将其泛化到由多个对称组成的群上,实现更好的目标识别效果。
Nov, 2019
本研究研究了注意力机制在视觉 Transformer 中的作用,将其简化为一个名为 ShiftViT 的零参数操作,发现它在分类、检测和分割等任务中表现良好,并且性能与强基线 Swin Transformer 相当甚至更好。
Jan, 2022
本文介绍了一种称为 VN-Transformer 的新型体系结构,以解决当前 VN 模型存在的一些缺点,包括推导出一种旋转等变的注意机制,扩展 VN 框架以支持非空间属性,在点云分辨率的多尺度缩减方面实现旋转等变,最终应用 VN-Transformer 于 3D 形状分类和运动预测领域,取得了显著的结果。
Jun, 2022
本研究提出了一种使用高斯注意偏差来指导位置嵌入的方法,以提高视觉转换器(ViTs)在图像分类、目标检测和语义分割等任务中的性能。研究表明,使用这种方法不仅有助于 ViT 理解图像,还提高了在各种数据集上的性能。
本研究阐述 Vision Transformers(ViTs)在自我关注机制的作用下,实现了对多种数据干扰的强大稳健性,并且提出了一族全注意网络(FANs),以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1%的最新准确度和 35.8%的 mCE,并且在两个下游任务中实现了最新的准确性和稳健性:语义分割和物体检测。
Apr, 2022