Jun, 2024

Fibottention: 多头多视线接纳的初级视觉表征学习

TL;DR通过引入 Fibonacci 序列,将 Fibottention 机制嵌入多种视觉任务的 Transformer 架构中,可以在保持计算开销较低的同时,显著提升图像分类、视频理解和机器人学习任务中 ViT 及其变体的性能。