BriefGPT.xyz
Ask
alpha
关键词
global and local vision transformers
搜索结果 - 1
CVPR
从标记稀疏化视角提高视觉 Transformer 的效率
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
PDF
a year ago
Prev
Next