CLiMB: 用于视觉语言任务的持续学习基准

Jun, 2022

CLiMB: 用于视觉语言任务的持续学习基准

CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks

Tejas Srinivasan, Ting-Yun Chang, Leticia Leonor Pinto Alva, Georgios Chochlakis, Mohammad Rostami...

TL;DR本研究介绍了 CLiMB 基准测试，并提出了一种改进的视觉 - 语言 Transformer (ViLT) 模型，用于同时处理多模态任务和单模态任务的连续学习问题。通过实验发现，虽然常见的连续学习方法可以缓解多模态任务学习中的遗忘问题，但并不能实现跨任务的知识转移。该基准测试将有助于研究这个多模态场景下的新型连续学习算法。

Abstract

Current state-of-the-art vision-and-language models are evaluated on tasks either individually or in a multi-task setting, overlooking the challenges of continually learning (CL) tasks as they arrive. Existing CL benchmarks have facilitated research on task adaptation and mitigating "catastrophic forgetting", but are limited to vision-only and language-only

continual learning multimodal tasks climb vilt model cross-task knowledge transfer

发现论文，激发创造

多模态任务的动态 Transformer 架构

我们提出了一种基于 Transformer 的持续学习框架 TAM-CL，用于学习涉及视觉和语言的多模态任务，并通过引入额外参数和知识蒸馏实现任务间的信息交流，以及解决灾难性遗忘问题。该方法在多种挑战性的多模态任务上达到了最先进的性能。

Jan, 2024

从 MNIST 到 ImageNet，再回去：连续课程学习的基准测试

本研究针对机器学习中的不断学习提出了两个新的基准，该基准涉及来自六个图像数据集的多个异构任务，其目的是为了更好地评估当前最先进的 CL 策略，并显示出当前 CL 模型在真实世界场景中表现较差的能力，高水平遗忘并限制了课程任务顺序。

Mar, 2023

在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力，并提出了 CLL-CLIP 模型，其通过仅训练标记嵌入来改善内存稳定性，并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系，实验证明该方法在多语言图像 - 文本检索性能上具有有效性。

Jan, 2024

VL-ICL Bench: 基于多模态上下文学习的基准测试中的细节之魔鬼

该研究介绍了一个全面的多模态上下文学习基准测试 VL-ICL Bench，评估了先进的视觉大语言模型在这个基准测试套件上的能力，揭示了它们的各种优势和弱点，并表明即使是最先进的模型，如 GPT-4，也会在这些任务中面临挑战。

Mar, 2024

vCLIMB: 一种新颖的视频类别增量学习基准

本文提出 vCLIMB 连续学习基准测试，旨在探究在视频领域中，利用深度模型进行随时间增量式学习时出现的挑战，作者提出了一种能应用于基于记忆的连续学习模型的时间一致性正则化方法，能显著提高模型在未修剪连续学习任务中的性能，最高可提高 24％。

Jan, 2022

CoLeCLIP：通过联合任务提示和词汇学习实现开放域持续学习

本文探讨了在开放领域中视觉语言模型的持续学习问题，介绍了一种名为 CoLeCLIP 的新方法，通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战，实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。

Mar, 2024

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023

ViLCo-Bench: 视频语言连续学习基准测试

本研究提出了第一个专门用于评估在各种视频文本任务中持续学习模型的基准数据集 ViLCo-Bench，并引入了一种新颖的内存高效框架，该框架结合了自监督学习，模拟长期和短期记忆效应，在面对长视频片段的内存复杂性、开放式查询的自然语言复杂性以及文本 - 视频不匹配等挑战时表现出色。

Jun, 2024

视觉语言模型的无遗忘学习

我们提出了一种叫做 PROOF 的模型，它通过训练任务特定的映射来解决 Vision-Language Models 在 Class-Incremental Learning 时候遗忘问题，并且通过融合多模态信息来提高模型的语义表示能力。在九个基准数据集上进行的实验表明，PROOF 达到了最先进的性能。

May, 2023

CLEAR 基准：真实世界图像上的持续学习

本文介绍了 CLEAR 数据集，通过一种新颖的、可扩展的、低成本的视觉语言数据集策划方法，利用预训练的视觉语言模型 CLIP 交互式地构建标记数据集并进行验证，清除了错误和不合适的图像，提出了流处理评估协议并发现，流处理协议可以产生模型更普遍的、更准确的性能估计，包括半监督学习。

Jan, 2022