CVPRDec, 2022

从像素到图像与语言理解的 CLIPPO 模型

TL;DR本研究提出了使用纯基于像素的单一编码器进行图像、文本和多模态任务的方法 ——CLIP-Pixels Only,其使用了对比损失进行训练,并且可以表现出强大的多语种多模态检索能力及惊人的视觉问答准确性。