BriefGPT.xyz
Ask
alpha
关键词
local visual areas
搜索结果 - 1
ICML
视觉 - 文本交叉对齐:在视觉 - 语言模型中优化相似度评分
使用预训练的视觉 - 语言模型对查询图像和细致的文本描述进行对齐可以显著增强零样本性能,因此我们提出了一种加权视觉 - 文本交叉对齐(WCA)方法,该方法通过局部视觉提示技术确定查询图像中的局部视觉区域,并通过创建基于预训练视觉 - 语言模
→
PDF
a month ago
Prev
Next