May, 2023

利用难样本提升视觉 - 语言模型性能

TL;DRHELIP 是一种低成本的策略,它通过在原始训练数据上混合硬例子,然后使用对比对齐目标和边缘损失将经过良好训练的 CLIP 模型进行微调,从而提高其性能,而无需从头开始训练模型,HELIP 在现有模型中以即插即用的方式实现,对于零样本识别和检索基准测试,HELIP 连续提高原有模型的性能,尤其是在预先训练 CC3M 和 CC12M 的情况下,HELIP 将 SLIP 的 ImageNet 零样本准确率分别提高了 3.05 和 4.47