一句话描绘千张画面:通过语言指导提炼 CLIP 进行领域泛化
通过利用语言作为随机化的源,在语义分割网络中引入简单的框架来实现泛化。通过最小化微调、语言驱动的局部样式增强和在训练过程中混合源和增强样式的随机化三个关键要素,我们进行了大量实验,在各种泛化基准测试中取得了最先进的结果。
Nov, 2023
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
介绍一种名为 SCMD 的新方法,利用大型视觉 - 语言模型来训练一个更高效的模型,确保其在未知领域具有稳健的泛化能力,通过独特的选择框架和跨模态模块,提供了超越现有领域泛化方法的最新性能,并通过理论分析深入洞察了选择策略的有效性和潜力。
Nov, 2023
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
通过使用预训练的视觉语言模型来提高视线估计的泛化能力,本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分,采用个性化上下文优化方法进行文本提示调整,并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明,CLIP-Gaze 方法的性能优于现有方法。
Mar, 2024
本研究提出了一项名为 CLIP-TD 的方法,对视觉 - 语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的 CLIP-TD 在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
糖尿病视网膜病变(DR)是视力障碍的主要原因之一,需要早期检测和治疗。本文研究了糖尿病视网膜病变(DR)分类问题中跨域泛化的挑战,通过使用 CLIP 模型在不同领域和数据分布下进行转化学习,引入了一种名为 CoOpLVT 的多模态微调策略来增强上下文优化,实验结果表明该方法相较于基线模型提高了 1.8% 的 F1 分数,为 DR 分类的有效跨域泛化提供了希望。
Aug, 2023
本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法,通过在源领域进行训练并在未见目标领域进行评估,提高了领域通用性。实验证明,该方法在域通用分割中的性能优于传统的视觉训练方法,取得了 7.6% mIoU 的提升。同时,在主流数据集上取得了 76.48% mIoU 的性能,超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力,并在当前排行榜上与最优方法并列第一。
Dec, 2023
本文探讨了在开放领域中视觉语言模型的持续学习问题,介绍了一种名为 CoLeCLIP 的新方法,通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战,实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。
Mar, 2024