Aug, 2024

训练CLIP以发展序数回归的数字感知

TL;DR本研究解决了在计算机视觉领域中,现有预训练视觉语言模型在序数回归任务中的局限性,特别是它们对数字感知的处理不足。我们提出了一种称为NumCLIP的方法,通过细分图像到数字匹配问题并引入新的基于跨模态排名的正则化损失,显著提升了模型的定量理解能力。实验结果显示,NumCLIP在历史图像定年和图像美学评估任务上分别实现了10%和3.83%的准确率提升。