BriefGPT.xyz
大模型
Ask
alpha
关键词
region-language alignment
搜索结果 - 1
CLIPSelf:视觉 Transformer 用于开放词汇密集预测的自我精简
该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析,并提出了一种名为 CLIPSelf 的方法,该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中,从而在开放式词汇密集预测任务中取得了最新的最优性能。
PDF
9 months ago
Prev
Next