速览注视视觉变换器

Jun, 2021

Glance-and-Gaze Vision Transformer

Qihang Yu, Yingda Xia, Yutong Bai, Yongyi Lu, Alan Yuille...

TL;DR提出一种效率更高的视觉 Transformer 模型，命名为 Glance-and-Gaze Transformer (GG-Transformer)，其通过两个并行的分支 ——Glance 和 Gaze，分别实现自适应扩张分区的自注意力机制与简单深度卷积层的局部图像上下文补偿，从而实现长距离依赖性和局部区域信息的高效建模，在多个视觉任务和基准测试中都表现出了优秀的性能。

Abstract

Recently, there emerges a series of vision transformers, which show superior performance with a more compact model size than conventional convolutional neural networks, thanks to the strong ability of Transformers to model →

vision transformers self-attention glance-and-gaze transformer long-range dependencies dense predictions

发现论文，激发创造

ViTGaze：视觉 Transformer 中的交互特征目光追踪

基于 Vision Transformers 和自注意力机制，我们提出了一种新的单模态注视跟踪框架 ViTGaze，通过人 - 场景间的信息交互提高了性能，达到了最先进的性能水平。

Mar, 2024

Sharingan：一种基于 Transformer 的注视跟踪架构

面部注视是人类从小培养起来的一种强大的非语言交流和社交互动方式。因此，对这种行为进行建模是一项重要任务，可以造福于从机器人学到社会学等广泛领域。本文介绍了一种基于变换器的二维注视预测架构，通过两个变种进行实验，并取得了在 GazeFollow 和 VideoAttentionTarget 数据集上的最新成果。

Oct, 2023

使用 Transformer 进行凝视估计

本文探讨利用变换器进行凝视估计中的效果，考虑两种形式的视觉变换器 —— 纯变换器和混合变换器，并比较其表现。结果表明混合变换器在所有评估数据集中均表现出优异的性能，具有更少的参数，并且采用混合变换器可以在预训练情况下在所有基准测试中实现最先进的表现。

May, 2021

基于 Transformer 的端到端人眼凝视目标检测

我们提出了一种名为 HGTTR 的方法，它可以在同时检测人类头部位置和目标注视物，在全局图像背景下推导关于显著对象与人眼注视之间的关系，这种方法不仅比现有的基于两阶段方法在性能上更好，而且可以在端到端的方式下直接预测所有人的头部位置和目标注视物。

Mar, 2022

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

关于视觉 Transformer 的调查

本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型，并分为不同任务类别，分析它们的优点和缺点，同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后，本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。

Dec, 2020

基于 Transformer 的人类注视行为在视频中的预测模型

基于眼动追踪数据的视频分析自动化是一个重要的任务。本文提出了一种基于转换器增强学习算法的模拟人类视线行为的新方法，通过观看视频并模拟人类注视行为，该方法能有效地复制人类注视行为并应用于实际任务。

Apr, 2024

TransGOP：基于 Transformer 的凝视对象预测

该研究介绍了一种基于 Transformer 的注视对象预测方法 TransGOP，该方法利用 Transformer 进行对象检测和建立远距离注视关系，采用对象到注视的交叉注意力机制来改善注视热图回归，并通过注视框损失实现整体框架的端到端训练。实验证明 TransGOP 在目标检测、注视估计和注视对象预测的所有任务上均取得了最先进的性能。

Feb, 2024

TransNeXt：用于视觉 Transformer 的强大视觉感知

通过仿生设计的令牌混合器，模拟生物视觉和持续眼动，提出聚合注意力机制（Aggregated Attention），使特征图上的每个令牌具有全局感知能力。同时，结合学习性令牌、卷积 GLU 机制，构建新的视觉主干网络 TransNeXt，实验结果表明其在多个模型尺寸上实现了最先进的性能。

Nov, 2023

级联注视：图像修复中全局语境提取的高效性

本文介绍了一种名为 CGNet 的编码 - 解码架构，它采用了全局上下文提取器（GCE），这是一种用于图像恢复的新颖高效的捕捉全局信息的方法。通过在卷积层之间使用小核心来学习全局依赖关系，GCE 模块无需自注意力即可实现。广泛的实验结果表明，我们的方法在去噪基准数据集（包括真实图像去噪和合成图像去噪）以及图像去模糊任务上优于一系列最先进的方法，同时具有更高的计算效率。

Jan, 2024