CVPRJun, 2024
视觉 Transformer 中的区域与稀疏注意力融合
Fusion of regional and sparse attention in Vision Transformers
Nabil Ibtehaz, Ning Yan, Masood Mortazavi, Daisuke Kihara
TL;DR本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。