BriefGPT.xyz
大模型
Ask
alpha
关键词
cross-modality embedding space
搜索结果 - 1
VT-CLIP: 使用视觉引导文本增强视觉语言模型
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
PDF
3 years ago
Prev
Next