ICCVDec, 2021

通过双分支全 Transformer 网络学习跟踪表示

TL;DR提出了一种仅基于 Transformer 的连体双支路网络,用于目标跟踪。该方法比第一步使用 CNN 提取特征,然后使用 Transformer 融合它们的最佳方法产生更好或可比的结果,在 GOT-10k 和 VOT2020 基准上优于现有技术。此外,该方法实现了实时推理速度(约 40fps)并且代码和模型将被公布。