May, 2023
利用难样本提升视觉-语言模型性能
Boosting Visual-Language Models by Exploiting Hard Samples
TL;DRHELIP是一种低成本的策略,它通过在原始训练数据上混合硬例子,然后使用对比对齐目标和边缘损失将经过良好训练的CLIP模型进行微调,从而提高其性能,而无需从头开始训练模型,HELIP在现有模型中以即插即用的方式实现,对于零样本识别和检索基准测试,HELIP连续提高原有模型的性能,尤其是在预先训练CC3M和CC12M的情况下,HELIP将SLIP的ImageNet零样本准确率分别提高了3.05和4.47