Dec, 2021

VT-CLIP: 使用视觉引导文本增强视觉语言模型

TL;DR提出一种名为VT-CLIP的方法来增强CLIP模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。