BriefGPT.xyz
Ask
alpha
关键词
semantic-rich visual tokenizer
搜索结果 - 1
用向量量化视觉令牌器进行遮蔽图像建模的 BEiT v2
本文提出使用语义丰富的视觉分词器作为蒙版预测的重构目标,以将蒙版图像建模从像素级别推广到语义级别,包括矢量量化知识蒸馏、预训练 Vision Transformers 和图像聚合策略等,实现了对图像分类和语义分割的超过现有 MIM 方法的表
→
PDF
2 years ago
Prev
Next