Feb, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

TL;DR近年来,视觉与语言任务的性能显著提升。本文介绍了一个框架,极大地提高了现有模型对构成性语言的编码能力,在构成性基准测试中绝对改进了 10%,同时在标准的对象识别和检索基准测试中保持或提高了性能。