在 CLIP 中通过持续语言学习拥抱语言包容性和多样性
我们提出了一个概念简单但有效的多语言 CLIP 压缩框架,并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP,用于中文和英文环境。在零样本图像分类方面的综合实验表明,相比于现有的类似参数规模的模型,DC-CLIP 在英文环境中取得了优越的性能,在中文环境中表现出竞争性能,即使使用较少的训练数据。我们设计的训练机制证明了其有效性。
Apr, 2024
在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining,CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性,并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性,此外还评估了终身学习对 CLIP 的泛化能力的影响,并发现调整图像编码器对终身学习有益,而调整文本编码器有助于零样本学习。
May, 2024
通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。
Jun, 2024
本文发现,CLIP(Contrastive Language-Image Pretraining)模型在冻结状态下,在不进行任何微调(零次评估)的情况下提供惊人的持续学习表现。作者在多种设置(包括类增量、域增量和任务不可知的增量学习)和五个流行基准测试集上评估了 CLIP 模型,证明了其在大多数设置中优于现有模型;同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。
Oct, 2022
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
本文探讨了在开放领域中视觉语言模型的持续学习问题,介绍了一种名为 CoLeCLIP 的新方法,通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战,实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。
Mar, 2024
我们的研究提出了 Continual LeArning with Probabilistic finetuning (CLAP) 方法,该方法运用概率建模技术,通过预训练模型的丰富知识进行可靠的细调,用于连续学习任务,并在不确定性估计上展现出更强的能力。
Mar, 2024
本文提出一种新的参数高效的跨语言转移学习框架,利用基于翻译的对齐方法来缓解多语言差异,并探索参数高效的微调方法,经过广泛的实验表明,我们的框架显著减少了语言之间的多语言差异,并在跨语言转移方面取得了改进,尤其在低资源场景中,同时只保留和微调极少量的参数与全模型相比(例如,我们的框架对于每种语言只需要全模型的 0.16% 的额外参数,在 few-shot 学习场景下)。
May, 2023
通过有限的预算,我们尝试解决多语言图像检索的挑战性任务,展示出使用 NLLB-CLIP 模型的训练结果,该模型在低资源语言上的质量与最先进模型相媲美且明显优于它们。
Sep, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022