BriefGPT.xyz
大模型
Ask
alpha
关键词
clip-vit model
搜索结果 - 1
通过文本在 ViTs 中分解和解释图像表示 超越 CLIP
我们提出了一个通用框架,能够识别不同模型部件在视觉转换器(ViTs)中的作用,并通过文本解释。应用于多种 ViT 变种,获得不同组件在特定图像特征方面的作用,以促进图像检索、可视化令牌重要性热图和减轻错误相关性等应用。
PDF
a month ago
Prev
Next