利用难样本提升视觉-语言模型性能

May, 2023

利用难样本提升视觉-语言模型性能

Boosting Visual-Language Models by Exploiting Hard Samples

Haonan Wang, Minbin Huang, Runhui Huang, Lanqing Hong, Hang Xu...

TL;DRHELIP是一种低成本的策略，它通过在原始训练数据上混合硬例子，然后使用对比对齐目标和边缘损失将经过良好训练的CLIP模型进行微调，从而提高其性能，而无需从头开始训练模型，HELIP在现有模型中以即插即用的方式实现，对于零样本识别和检索基准测试，HELIP连续提高原有模型的性能，尤其是在预先训练CC3M和CC12M的情况下，HELIP将SLIP的ImageNet零样本准确率分别提高了3.05和4.47

Abstract

Large vision and language models, such as Contrastive Language-Image Pre-training (clip), are rapidly becoming the industry norm for matching images and texts. In order to improve its zero-shot recognition perfor

发现论文，激发创造

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现60.4%的零样本top1准确率，并在转化到下游任务时优于常规CLIP模型。

Oct, 2021

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

CALIP: 零参数关注下的零样本增强CLIP

本文提出了一种名为CALIP的方法，通过一个无需参数的关注模块，在不增加额外的训练开销和数据需求的情况下提高Contrastive Language-Image Pre-training的零样本性能。

Sep, 2022

RECLIP: 使用小尺寸图片训练的资源高效CLIP

本文介绍了一种名为RECLIP的方法，其最小化了用于Contrastive Language Image Pretraining的计算资源，实现了高效的语言监督预训练。该方法利用小图像高效地学习大规模语言监督，并在最后使用高分辨率数据进行微调，以降低训练资源要求，并展示了与现有方法相比极具竞争力的指标表现。

Apr, 2023

使用语言改写改善CLIP训练

本文提出了一种名为LaCLIP的新方法，通过语言重写增强CLIP的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像-文本转移性能。

May, 2023

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出ReCLIP方法，第一个无需源数据或目标标记数据的视觉-语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在22个图像分类基准测试中将CLIP的平均错误率从30.17%降低到25.06%。

Aug, 2023

研究 CLIP 模型的限制：最差表现的分类

通过研究CLIP模型中两种形式的对齐并提出类别匹配边界来解决其性能不足的问题，成功提高了ImageNet上最差10个类别的准确率，无需手动优化或访问标记验证数据。

Oct, 2023

利用更好的架构、优化和数据建立开放式词汇视频CLIP模型

本研究介绍了Open-VCLIP++，它是一个简单而有效的框架，通过最小化修改CLIP来捕捉视频中的时空关系，从而创建一个专门的视频分类器，同时追求泛化性。通过在训练和测试过程中利用权重插值的优势，我们演示了训练Open-VCLIP++等同于零历史数据的持续学习。此外，我们利用大型语言模型生成了细粒度的视频描述，并与视频特征进行了对齐，从而更好地将CLIP应用于视频领域。我们的方法在三个广泛使用的动作识别数据集上进行了评估，并超过了现有最先进技术的显著水平。我们在UCF、HMDB和Kinetics-600数据集上分别实现了88.1%、58.7%和81.2%的零样本准确率，分别比最佳替代方法高出8.5%、8.2%和12.3%。我们还在MSR-VTT视频文本检索数据集上进行了评估，结果显示我们的方法在视频到文本和文本到视频的检索性能上达到了竞争水平，并且相比其他方法使用了更少的微调数据。

Oct, 2023

RankCLIP: 语言-图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP在扩展CLIP的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于CLIP等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024