May, 2021

视觉Transformer的引人注目的性质

TL;DR本文旨在分析分析ViT模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用ViT以无需像素级监督的方式实现准确的语义分割。