使用非对角信息进行不断的视觉 - 语言表征学习

May, 2023

使用非对角信息进行不断的视觉 - 语言表征学习

Continual Vision-Language Representaion Learning with Off-Diagonal Information

Zixuan Ni, Longhui Wei, Siliang Tang, Yueting Zhuang, Qi Tian

TL;DR本文讨论了连续训练 CLIP 模型的可行性，并通过跟踪连续更新的 CLIP 模型中的表示向量的方向变化，将这些空间变化总结为空间扰动（SD），其可分为 Intra-modal Rotation 和 Inter-modal Deviation。此外，我们展示了 Intra-modal Rotation 和 Inter-modal Deviation 如何在经验上和理论上导致 CLIP 在跨模式检索任务中性能下降。为了缓解空间混乱，我们提出了一个简单而有效的连续学习框架 Mod-X：维护副对角线信息矩阵。在不同规模和范围的常用数据集（第 ef {method} 节、 ef {experiments} 节和附录 ef {Appendix_to_experiments}）上的实验已经证明了我们方法的有效性。

Abstract

This paper discusses the feasibility of continuously training the clip model through streaming data. Then, by tracking the directional changes of the representation vectors in the continuously updated clip model,

clip model spatial disorder continual learning intra-modal rotation inter-modal deviation

发现论文，激发创造

在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力，并提出了 CLL-CLIP 模型，其通过仅训练标记嵌入来改善内存稳定性，并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系，实验证明该方法在多语言图像 - 文本检索性能上具有有效性。

Jan, 2024

稳健的跨模态表示学习与渐进式自蒸馏

通过交叉模态对比学习以及软图像 - 文本对齐等方法，改进了 CLIP 模型，在处理带有噪声的数据集时能更加高效地学习出具有鲁棒性的表示。经过对 14 个基准数据集的广泛评估，该方法在多种设置下表现均优于 CLIP，并且没有增加计算成本。此外，该方法还在自然分布偏移的鲁棒性测试中表现更好。

Apr, 2022

CoLeCLIP：通过联合任务提示和词汇学习实现开放域持续学习

本文探讨了在开放领域中视觉语言模型的持续学习问题，介绍了一种名为 CoLeCLIP 的新方法，通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战，实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。

Mar, 2024

CLIP 模型是高效的继续学习器

本文发现，CLIP（Contrastive Language-Image Pretraining）模型在冻结状态下，在不进行任何微调（零次评估）的情况下提供惊人的持续学习表现。作者在多种设置（包括类增量、域增量和任务不可知的增量学习）和五个流行基准测试集上评估了 CLIP 模型，证明了其在大多数设置中优于现有模型；同时作者还通过改变简单提示模板的文本输入来研究 CLIP 模型性能的影响。作者鼓励在持续学习任务中使用这种强大而非常简单的基线方法进行未来的比较。

Oct, 2022

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

通过专家混合适配器增强视觉语言模型的持续学习

提出了一种参数高效的持续学习框架，通过在视觉语言模型中动态扩展一个预训练的 CLIP 模型，采用专家混合（Mixture-of-Experts）适配器以应对新任务，并引入分布鉴别自动选择器（DDAS）以保留视觉语言模型的零样本识别能力，并通过各种实验验证，该方法在提升性能的同时减少了 60% 的参数训练负担。

Mar, 2024

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024

缓解差距：研究提升 CLIP 中跨模态对齐的方法

通过设计 AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024

视觉语言模型的无遗忘学习

我们提出了一种叫做 PROOF 的模型，它通过训练任务特定的映射来解决 Vision-Language Models 在 Class-Incremental Learning 时候遗忘问题，并且通过融合多模态信息来提高模型的语义表示能力。在九个基准数据集上进行的实验表明，PROOF 达到了最先进的性能。

May, 2023

从视觉语言模型中学习不变的因果机制

我们提出了 CLIP-ICM（Invariant Causal Mechanism of CLIP）算法，该算法旨在通过干预数据来可靠地识别不变的潜在因素，并在各个领域中实现准确的预测。理论分析表明，我们的方法在分布外（OOD）场景中具有较低的泛化下界，实验结果展示了 CLIP-ICM 的卓越性能。

May, 2024