语义残差指令用于持续学习

Mar, 2024

Semantic Residual Prompts for Continual Learning

Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Enver Sangineto, Lorenzo Bonicelli...

TL;DR通过在 Continual Learning 中引入 Prompt-tuning 方法，以更稳定的选择策略和适应机制，提出了一种能够优于最先进的方法的新模型，即使在与预训练模型存在显著领域差异的数据集上也适用。

Abstract

prompt-tuning methods for continual learning (CL) freeze a large pre-trained model and focus training on a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value

prompt-tuning methods continual learning catastrophic forgetting clip vit

发现论文，激发创造

卷积提示与语言模型相遇的持续学习

提出了 ConvPrompt，一种新颖的卷积提示创建机制，通过维护逐层共享的嵌入，实现了层特定学习和更好的概念传递，从而克服了 Catastrophic Forgetting 在 Continual Learning 中的问题。通过使用卷积的智能化利用，可以保持较低的参数开销而不影响性能，并通过大型语言模型生成每个类别的细粒度文本描述，用于获取任务相似性并动态决定要学习的提示数量。在广泛的实验证明了 ConvPrompt 的优越性，并显著提高了 SOTA 约 3%，参数开销更少。同时进行了强有力的模块剥离以剖析不同组成部分的重要性。

Mar, 2024

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

本文介绍了一种多模态提示学习方案，该方案在单一统一的训练下平衡了监督和零样本学习的表现，并提出了视觉和文本方面的提示方案，通过保持预训练的骨干网络冻结，在保留现有的通用表示的同时实现了最先进的零样本效果。

Apr, 2023

在像素级别释放视觉提示的威力

本文提出一种简单且有效的视觉提示方法，用于将预训练模型适应下游识别任务。并重新引入了两种常用技术，即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8％的平均准确率的记录，并提供了代码。

Dec, 2022

检索增强的视觉提示学习用于少样本分类

本论文提出了一种检索增强的提示学习方法（RePrompt），通过引入检索机制来对下游任务进行知识表示的缓存，该方法在 15 个视觉数据集上进行了广泛实验，包括 11 个在少样本设置下的下游任务和 4 个域泛化基准，在处理领域差异增加时取得了明显的改进。

Jun, 2023

一阶段基于提示的持续学习

通过引入一种单阶段的 PCL 框架，将中间层的标记嵌入作为提示查询，消除了查询 ViT 的额外前馈阶段，从而在训练和推理中将计算成本降低了约 50%，准确度仅下降不到 1%。此外，引入了查询池正则化损失（QR 损失），用于改进提示查询和提示池之间的关系，该损失仅在训练时应用，因此在推理阶段没有计算开销。通过引入 QR 损失，我们的方法在推理过程中仍然保持了约 50% 的计算成本降低，并且在包括 CIFAR-100、ImageNet-R 和 DomainNet 在内的公共类增量连续学习基准测试中优于之前的两阶段 PCL 方法约 1.4%。

Feb, 2024

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层，我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案 —— 一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023

基于典型对比学习的 CLIP 微调方法用于物体重新识别

這項研究旨在將大規模預先訓練的視覺語言模型，如對比語言 - 圖像預訓練（CLIP），適應各種監督設置下物體再識別（Re-ID）的表現提升。在本研究中，我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查，我們提出了一種簡單而有效的方法，通過使用原型對比學習（PCL）損失直接微調 CLIP 的圖像編碼器，從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外，我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景，達到了最新的表現。

Oct, 2023

POP：面向连续学习的提示

本文提出了 Prompt Of Prompts (POP) 模型，它通过逐步学习一组任务特定 prompt 和一组全局 prompt 的方式来捕捉多个任务之间的信息集成，并证明这个模型在少样本情况下能够优于传统的 CL 方法。

Jun, 2023

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024