变色龙:一种在野外进行密集视觉预测的数据高效通用模型
我们提出了一种通用视觉模型,采用集成式的训练方式,使其可同时进行多任务,具有较强的泛化能力和模块化特性,并可在保证较小的训练参数、模型参数和计算量的同时,灵活地满足各种下游任务的需求,且适用于不断学习而无需遗忘的情境。
Jun, 2023
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
Jun, 2024
研究表明,视觉语言模型是目前广泛使用的预训练模型,但在适应少量样本方面,深度学习模型存在不足。本文研究了面向生成视觉语言模型的现有适应方法,提出了自标记的重要性,并提出一种任务适应流水线,可显著提高各种视觉语言任务(如图像分类、视觉问答等)的性能。
May, 2023
深度网络的概括性是未见数据的关键要求,但其与分类准确性的关系尚不清楚。使用极简的视觉数据集和一种概括能力度量,我们展示了受欢迎的网络,从深度卷积网络(CNN)到 Transformer,在层级和体系结构的不同方面对未见类别的外推能力存在差异。准确性不能很好地预测概括能力,并且概括能力与层级深度变化的关系是非单调的。
Feb, 2024
提出了一种参数高效的持续学习框架,通过在视觉语言模型中动态扩展一个预训练的 CLIP 模型,采用专家混合(Mixture-of-Experts)适配器以应对新任务,并引入分布鉴别自动选择器(DDAS)以保留视觉语言模型的零样本识别能力,并通过各种实验验证,该方法在提升性能的同时减少了 60% 的参数训练负担。
Mar, 2024
我们展示了在 RGB-X 视频目标跟踪上,在统一化时的专门化不必要,通过使用一种称为 XTrack 的单一模型跟踪器,在推理过程中对任何模态 X 保持盲目,以实现输入模态的统一,并实现专门模态的信息表示,从只有配对数据开始,通过简单的训练过程有效地整合了多标签分类损失和路由函数,从而达到了与模态特定模型相媲美的性能。
May, 2024
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
在这项工作中,我们提出了一种元学习算法,通过在推理过程中学习新的视觉概念而无需微调,模拟了类似大型语言模型的能力。我们的方法利用一个冻结的预训练特征提取器,并将元学习重新构造为对具有已知标签的数据点和具有未知标签的测试数据点进行序列建模,从而在 11 个元学习基准中的 8 个中,超过或与元训练于这些基准的最先进算法 P>M>F 相匹配,而无需元训练或微调。
Oct, 2023
该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性,结果表明,保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略,使用较少的训练数据(20 万张图像,相较于 72 万张),在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中,该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。
Feb, 2024
本文提出了一种少样本数据集泛化的方法,建立了一种通用模板,可以插入适当的组件定义各种数据集特化模型,通过梯度下降逐步微调自适应模型的参数初始化,相比之前的方法,该方法更具参数效率、可扩展性和适应性,在富有挑战性的 Meta-Dataset 基准测试上实现了最佳效果。
May, 2021