May, 2021

视觉 Transformer 的引人注目的性质

TL;DR本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。