值得信赖的视觉语言模型的探险:一项调查
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本研究探讨了用于视觉 Transformer 的不同解释性方法,并提出了根据其动机、结构和应用场景进行分类的分类法。此外,还提供了用于比较解释结果的综合评价标准,以及解释性工具和框架。最后,本文突出了可以增强视觉 Transformer 可解释性的重要但未被开发的方面,并提出了未来需进一步研究的方向。
Nov, 2023
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉 Transformers 在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
大型模型的快速进展在深度学习的各个领域中带来了显著的成绩,但其强大性能而不可信赖的行为成为学术界和工业界面临的挑战。本综述总结了在视觉领域中妨碍大型模型信赖使用的四个相关问题,包括人类误用、易受攻击、内在问题和解释性,通过突出每个主题中的相应挑战、对策和讨论,希望读者能更好地理解该领域,促进大型模型与人类期望的一致性,使可信赖的大型模型成为人类社会的福祉而非灾难。
Nov, 2023
该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用,重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念,并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性,最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。
Mar, 2024
本文主要介绍 Transformers 在记忆效率、计算成本和性能方面的高效性,特别讨论了视觉 Transformer 用于图像分类任务,并提出了一个有效的 360 框架以使其更适用于工业应用。作者将这些应用程序归类为多个维度,如隐私、稳健性、透明度、公平性、包容性、持续学习、概率模型、近似、计算复杂性和光谱复杂性,并在多个数据集上比较各种视觉变换器模型的性能、参数数和浮点运算次数(FLOPs)。
Feb, 2023
该论文通过对 NLP 的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查,旨在确定当前 NLP 技术对可持续社会的贡献,并为未来研究奠定基础。
May, 2024