Jun, 2024

IntCoOp:可解释性感知的视觉 - 语言提示调优

TL;DR通过引入属性级归纳偏差和类嵌入来提高图像 - 文本对齐分数的一种新颖的和可解释的提示调优方法。我们通过在 CLIP 上的广泛实验中评估 IntCoOp 来证明其有效性,并发现在 10 个不同领域的下游数据集上,引入属性级归纳偏差能够比现有的提示调优框架获得更好的性能,特别是在 16 张图片的情况下,IntCoOp 提高了 10 个不同数据集的平均表现 7.35%。