基于 CLIP 的从 PEFT 梯度的图像重建
该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。
Jan, 2024
通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。
Jun, 2024
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
介绍了一种解决多模态表征学习领域中后门攻击问题的新方法 CleanCLIP,可以帮助模型减弱后门数据带来的错误训练结果。同时,该方法可以通过对单个模态的预训练任务进行微调的方式来提高模型的鲁棒性。
Mar, 2023
在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining,CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性,并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性,此外还评估了终身学习对 CLIP 的泛化能力的影响,并发现调整图像编码器对终身学习有益,而调整文本编码器有助于零样本学习。
May, 2024
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023
本研究提出了 CLIPTrans 框架,通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型,使它们的嵌入空间对齐,并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点,并将标准基准提升了平均 2.67 个 BLEU 值。
Aug, 2023
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性,该技术利用 CLIP 生成的伪标签以及自训练策略进行训练,无需注释数据,能够增强模型在真实场景中应对多种不确定性和挑战的能力,并在各种数据集上实现了 SOTA 结果
Sep, 2023