cross-modality embedding space | BriefGPT

关键词cross-modality embedding space

搜索结果 - 1

VT-CLIP: 使用视觉引导文本增强视觉语言模型
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。
PDF3 years ago