CTP: 基于兼容的动量对比和拓扑保持的视觉-语言持续预训练
本文介绍了CLEAR数据集,通过一种新颖的、可扩展的、低成本的视觉语言数据集策划方法,利用预训练的视觉语言模型CLIP交互式地构建标记数据集并进行验证,清除了错误和不合适的图像,提出了流处理评估协议并发现,流处理协议可以产生模型更普遍的、更准确的性能估计,包括半监督学习。
Jan, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
本研究介绍了 CLiMB 基准测试,并提出了一种改进的视觉-语言 Transformer (ViLT) 模型,用于同时处理多模态任务和单模态任务的连续学习问题。通过实验发现,虽然常见的连续学习方法可以缓解多模态任务学习中的遗忘问题,但并不能实现跨任务的知识转移。该基准测试将有助于研究这个多模态场景下的新型连续学习算法。
Jun, 2022
本研究针对机器学习中的不断学习提出了两个新的基准,该基准涉及来自六个图像数据集的多个异构任务,其目的是为了更好地评估当前最先进的CL策略,并显示出当前CL模型在真实世界场景中表现较差的能力,高水平遗忘并限制了课程任务顺序。
Mar, 2023
通过使用模拟真实世界条件的新实验协议,本文验证了关于连续学习的假设,并评估迄今取得的进展。结果表明,考虑到所有方法均表现不佳,明显偏离联合离线训练的上限,这对现实环境中的现有方法的适用性提出了问题。本文旨在通过新的实验协议来倡导采用连续学习方法,以在该领域取得突破。
Feb, 2024
该论文提出了连续视觉映射(Continual Visual Mapping,CVM)的方法,该方法通过从固定的大型语言模型中抽取的知识空间不断将视觉表示与概念空间进行关联,以解决深度学习中不断地从非独立同分布的数据流中学习的问题。CVM在五个基准测试中超越了现有的连续学习方法,为解决计算能力有限的设备上的泛化能力提供了一个有前途的途径。
Jul, 2024
本研究针对开放域持续学习中的两个主要挑战:记忆遗忘和零样本能力不足,提出了一种新颖的方法:利用领域内类别感知原型。该方法通过一个无训练的任务识别判别器,实现对任务ID的准确识别,并有效保持各领域的知识,从而在多个数据集上显著提升了学习效果。
Aug, 2024
本研究针对多模态基础模型在实际应用中面临的持续过时问题,提出了一种实用的解决方案。通过介绍FoMo-in-Flux基准,我们探索了持续预训练的复杂场景,提供了数据中心和方法中心的深入见解。这项工作为现实世界的模型更新提供了全面的指导,可能显著提高多模态模型在特定子领域的适应能力与应用效果。
Aug, 2024
该研究解决了现有大型视觉语言模型(LVLMs)在单任务适应中无法应对现实世界多样化和不断变化的需求的问题。提出的新方法“持续LLaVA”通过冻结LVLMs并构建双增量嵌入,有效支持再调优,并显著减少遗忘现象。这项研究的最显著发现是持续LLaVA在持续指令调优过程中优于以往方法,减少了知识遗忘,提高了模型的适应性。
Nov, 2024