双原型对齐:无监督适应视觉语言模型
该研究提出了一种基于词袋模型的框架,通过学习中层的词汇原型以及词频直方图进行分类,从而避免了负迁移问题,并在三个常见的领域自适应与开放领域自适应识别基准测试中取得了最优表现。
Oct, 2022
通过提出ReCLIP方法,第一个无需源数据或目标标记数据的视觉-语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在22个图像分类基准测试中将CLIP的平均错误率从30.17%降低到25.06%。
Aug, 2023
我们设计了一种名为Unsupervised Prototype Adapter (UP-Adapter)的无监督微调方法,通过利用CLIP的文本-图像对齐能力自动选择每个类别中最有信心的样本,并利用这些选择的样本生成类别原型,用于可学习的原型模型的初始化。经过微调后,通过剩余连接将原型模型的预测与原始CLIP的预测相结合,用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明,所提出的无监督方法在8-shot CoOp、8-shot Tip-Adapter以及最先进的UPL方法上都取得了显著优势。
Aug, 2023
我们提出了Self Structural Semantic Alignment (S^3A)框架,该框架通过从无标签数据中提取结构语义信息并进行自学习,克服了传统的基于大规模预训练视觉语言模型方法所存在的假设有部分源监督或理想词汇表的限制,通过Cluster-Vote-Prompt-Realign算法实现迭代聚类,利用大语言模型生成辨别性提示来识别混淆的类别候选项,并通过师生学习策略进行自学习,实现了对现实中零样本分类的挑战,多个实验表明该方法明显优于现有的基于VLMs的方法,相对于CLIP平均提高了15%以上的准确性。
Aug, 2023
在这项工作中,我们介绍了一种用于CLIP的样本高效领域适应策略,称为Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC提供了一个计算效率高、抗分布转移性强且不改变CLIP参数的少样本微调框架,在11个广泛使用的图像分类任务中,以2.3%的提升应对16个样本分类挑战,并在4个鲁棒性基准上展现出竞争性能。
Nov, 2023
通过引入测试时间原型偏移(Test-Time Prototype Shifting,TPS)框架,我们在共享嵌入空间中调制每个类别的原型,动态地学习每个原型的偏移向量,从而弥合领域差距,提高分类准确性,并在减少资源需求的情况下取得创新性能的优势。
Mar, 2024
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
通过直接利用CLIP进行领域间差异度量,提出了一种新颖的以语言为导向的无监督域自适应方法CLIP-Div,通过收集到的领域不可知分布度量领域差异并使用语言引导校准目标伪标签,从而有效减小领域差距并提高模型的泛化能力,实验证明此方法在Office-Home、Office-31、VisDA-2017和DomainNet数据集上均表现优于基于CNN的现有方法。
Jul, 2024
本文解决了无监督领域适应 (UDA) 中的两个关键挑战,尤其是探索视觉-语言预训练 (VLP) 模型的潜力。提出了一种新方法——跨模态知识蒸馏 (CMKD),利用VLP模型作为教师模型来指导目标领域的学习,从而实现了业界领先的性能。此外,提出的残差稀疏训练 (RST) 技术通过最小调整VLP模型参数来降低存储开销与模型部署的复杂性,显著提高了效率。
Aug, 2024
本研究解决了现有视觉语言模型在测试时间适应中无法有效积累任务特定知识的问题。提出的双原型演变(DPE)方法采用文本和视觉原型,促进多模态表示的精准捕捉。实验结果表明,DPE在15个基准数据集上优于现有最先进的方法,并具有良好的计算效率。
Oct, 2024