Mar, 2024

学会更好地说 “是” 的方法:通过否定改进视觉语言模型

TL;DR通过引入 CC-Neg 数据集和 CoN-CLIP 框架,我们的工作解决了视觉语言模型中一个重要的局限性,加强了图像和文本之间的语义关联,展示了具有显著降低计算成本的改进型大规模基础模型,提升了效率和可访问性。