Mar, 2024

跟踪与 LoRA: 更快的训练、更大的模型、更强的性能

TL;DR通过 LoRAT 方法,将 Vision Transformers (ViT) 应用于实验室级资源内的视觉跟踪,通过解决独特的挑战和潜在域差异,包括将位置嵌入分解为共享的空间嵌入和独立的类型嵌入,并设计了仅基于多层感知器 (MLP) 的自由锚定头进行适应,以提高性能并降低计算开销。