视觉 Transformer 在动作识别中的应用:一份调研报告
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作,使用 Transformer 风格的架构聚合人物周围的时空背景特征,通过高分辨率、个性化、类别不可知的查询,该模型自动学习跟踪个人并从他人的动作中获取语义上下文
Dec, 2018
该研究调查了 Transformer 模型在建模视频方面的使用,并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态,探索了有效的自监督学习策略,表明在视频的行动分类基准测试中,与 3D ConvNets 相比,它们具有更低的计算复杂度。
Jan, 2022
该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用,重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念,并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性,最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。
Mar, 2024
多模态人体动作识别的综述研究,重点关注多模态数据融合设计方面的经典和新兴技术,分析了卷积神经网络和 Transformer 建模方法在该问题上的流行趋势和更高效的模型设计选择,并讨论了实践模型训练中的有前景的架构和融合设计选择,以及多模态数据集的规模和评估视角,提出了多模态人体动作识别的挑战与未来发展方向。
May, 2024
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉 Transformers 在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
本文介绍了一种训练更强大的视频视觉变换器的经验结果,使用了诸如增强、分辨率和初始化等技术,并在 EPIC-KITCHENS-100 数据集上进行了探索,单个 ViViT 模型在验证集上取得了 47.4% 的性能,超过原始文献报告的 3.4%。
Jun, 2021