在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

AAAIJan, 2024

在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning

Bang Yang, Yong Dai, Xuxin Cheng, Yaowei Li, Asif Raza...

TL;DR通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力，并提出了 CLL-CLIP 模型，其通过仅训练标记嵌入来改善内存稳定性，并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系，实验证明该方法在多语言图像 - 文本检索性能上具有有效性。

Abstract

While vision-language pre-trained models (VL-PTMs) have advanced multimodal research in recent years, their mastery in a few languages like English restricts their applicability in broader communities. To this end, there is an increasing interest in developing →

vision-language pre-trained models multilingual vl models continual language learning cll-clip multilingual image-text retrieval

发现论文，激发创造

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024

CLIP 模型是高效的继续学习器

本文发现，CLIP（Contrastive Language-Image Pretraining）模型在冻结状态下，在不进行任何微调（零次评估）的情况下提供惊人的持续学习表现。作者在多种设置（包括类增量、域增量和任务不可知的增量学习）和五个流行基准测试集上评估了 CLIP 模型，证明了其在大多数设置中优于现有模型；同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。

Oct, 2022

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CoLeCLIP：通过联合任务提示和词汇学习实现开放域持续学习

本文探讨了在开放领域中视觉语言模型的持续学习问题，介绍了一种名为 CoLeCLIP 的新方法，通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战，实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。

Mar, 2024

基于概率微调的视觉 - 语言模型连续学习

我们的研究提出了 Continual LeArning with Probabilistic finetuning (CLAP) 方法，该方法运用概率建模技术，通过预训练模型的丰富知识进行可靠的细调，用于连续学习任务，并在不确定性估计上展现出更强的能力。

Mar, 2024

通过基于翻译的对齐实现参数高效的跨语言视觉与语言模型转移

本文提出一种新的参数高效的跨语言转移学习框架，利用基于翻译的对齐方法来缓解多语言差异，并探索参数高效的微调方法，经过广泛的实验表明，我们的框架显著减少了语言之间的多语言差异，并在跨语言转移方面取得了改进，尤其在低资源场景中，同时只保留和微调极少量的参数与全模型相比（例如，我们的框架对于每种语言只需要全模型的 0.16% 的额外参数，在 few-shot 学习场景下）。

May, 2023

NLLB-CLIP – 在预算内训练高性能多语言图像检索模型

通过有限的预算，我们尝试解决多语言图像检索的挑战性任务，展示出使用 NLLB-CLIP 模型的训练结果，该模型在低资源语言上的质量与最先进模型相媲美且明显优于它们。

Sep, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022