语义残差指令用于持续学习
提出了 ConvPrompt,一种新颖的卷积提示创建机制,通过维护逐层共享的嵌入,实现了层特定学习和更好的概念传递,从而克服了 Catastrophic Forgetting 在 Continual Learning 中的问题。通过使用卷积的智能化利用,可以保持较低的参数开销而不影响性能,并通过大型语言模型生成每个类别的细粒度文本描述,用于获取任务相似性并动态决定要学习的提示数量。在广泛的实验证明了 ConvPrompt 的优越性,并显著提高了 SOTA 约 3%,参数开销更少。同时进行了强有力的模块剥离以剖析不同组成部分的重要性。
Mar, 2024
本文介绍了一种多模态提示学习方案,该方案在单一统一的训练下平衡了监督和零样本学习的表现,并提出了视觉和文本方面的提示方案,通过保持预训练的骨干网络冻结,在保留现有的通用表示的同时实现了最先进的零样本效果。
Apr, 2023
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
本论文提出了一种检索增强的提示学习方法(RePrompt),通过引入检索机制来对下游任务进行知识表示的缓存,该方法在 15 个视觉数据集上进行了广泛实验,包括 11 个在少样本设置下的下游任务和 4 个域泛化基准,在处理领域差异增加时取得了明显的改进。
Jun, 2023
通过引入一种单阶段的 PCL 框架,将中间层的标记嵌入作为提示查询,消除了查询 ViT 的额外前馈阶段,从而在训练和推理中将计算成本降低了约 50%,准确度仅下降不到 1%。此外,引入了查询池正则化损失(QR 损失),用于改进提示查询和提示池之间的关系,该损失仅在训练时应用,因此在推理阶段没有计算开销。通过引入 QR 损失,我们的方法在推理过程中仍然保持了约 50% 的计算成本降低,并且在包括 CIFAR-100、ImageNet-R 和 DomainNet 在内的公共类增量连续学习基准测试中优于之前的两阶段 PCL 方法约 1.4%。
Feb, 2024
通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层,我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案 —— 一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。
Oct, 2023
這項研究旨在將大規模預先訓練的視覺語言模型,如對比語言 - 圖像預訓練(CLIP),適應各種監督設置下物體再識別(Re-ID)的表現提升。在本研究中,我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查,我們提出了一種簡單而有效的方法,通過使用原型對比學習(PCL)損失直接微調 CLIP 的圖像編碼器,從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外,我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景,達到了最新的表現。
Oct, 2023
本文提出了 Prompt Of Prompts (POP) 模型,它通过逐步学习一组任务特定 prompt 和一组全局 prompt 的方式来捕捉多个任务之间的信息集成,并证明这个模型在少样本情况下能够优于传统的 CL 方法。
Jun, 2023
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023