Oct, 2023

EViT:鹰眼视觉 Transformer 与双凹视域自注意力机制

TL;DR基于鹰眼的生理结构与特点,本研究提出了一种新颖的双凹中注意力(BFSA)算法,以缓解视觉变换器在计算复杂性和感应偏见缺失方面的挑战,并结合 CNN 和 Vision Transformer 设计了生物仿生鹰眼视觉(BEV)模块,最终通过堆叠 BEV 模块完成了统一高效的金字塔主干网络(EViTs)家族的开发,实验结果表明 EViTs 在图像分类、目标检测、实例分割等多个计算机视觉任务上与基准模型相比具有显著的优势。