计算机围棋的视觉转换器
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
transformer 神经网络结构通过注意力机制实现自回归的序列到序列建模,在自然语言处理和计算机视觉等领域取得了重大突破。本文综述了在计算机视觉领域中应用 transformer 的主要进展,并针对多目标跟踪 (MOT) 进行讨论,指出 transformer 在最新的 MOT 研究中逐渐具备竞争力,但仍然落后于传统深度学习方法。
Jun, 2024
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用,重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念,并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性,最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。
Mar, 2024