本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉 Transformers 在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
视觉语言任务中,基于预训练的变压器架构在视觉语言建模方面表现出色,为视觉和语言结合的任务带来了类似的进展。
Jul, 2023
本研究探讨了用于视觉 Transformer 的不同解释性方法,并提出了根据其动机、结构和应用场景进行分类的分类法。此外,还提供了用于比较解释结果的综合评价标准,以及解释性工具和框架。最后,本文突出了可以增强视觉 Transformer 可解释性的重要但未被开发的方面,并提出了未来需进一步研究的方向。
Nov, 2023
本文研究使用纯 Transformer 模型实现复杂视觉任务中的目标检测,发现 Vision Transformer 作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果,而且能够保持更高的图像分辨率。
本文介绍了近期表现最佳的 Vision Transformers 方法,对其强弱项、计算成本、训练和测试数据集进行了全面综述,并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较,最后讨论了一些局限性和提出了未来研究方向。
Mar, 2022
研究提出了一种多阶段的 Vision Transformer 框架,用于细粒度图像分类,可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能,并在四个流行的细粒度基准测试中进行了实验,同时通过定性结果证明了模型的可解释性。
Jun, 2021
本文综述了基于 transformer 的视觉分割技术,总结了近期的进展,详细介绍了各种方法设计和应用,并对该领域的未来研究方向进行了探讨。
Apr, 2023