基于超球面空间的参数高效微调用于开放词汇语义分割
我们在这篇论文中提出了一种参数高效微调的方法,使用跨块协同和内部块增强机制实现了 Segment Anything Model (SAM) 在各种新情景下的适应性,并通过实验证明了我们的方法在仅使用约 1K 额外参数的情况下显著提高了分割性能。
Nov, 2023
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
通过引入 PEL 方法,该研究通过少于 20 个时期的微调,无需额外数据即可适应长尾识别任务,并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题,从而持续优于之前的最佳方法。
Sep, 2023
通过引入一个简单的微调方法,我们提出了一种改进 CLIP 模型对于释义的表征的方法,该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义,并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进,包括释义检索、Visual Genome 关系和属性,以及七个语义文本相似度任务。
Feb, 2024
图像 - 文本训练如 CLIP 已经在近年来直接影响了视觉基础模型的预训练。本文提出了一种名为 ViSFT(Vision SFT)的两阶段方法,通过对一些领域内任务进行视觉联合学习,进而增强视觉基础模型的精细知识。该方法在 8 个 V100 GPU 上不到 2 天的时间内使用 ViSFT 进行更新,展示了一个带有超过 4.4B 参数的视觉转换器在包括视觉和视觉 - 语言场景在内的各种领域外基准测试中的改进。
Jan, 2024
该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。
Jan, 2024
本文首次全面评估 Parameter-Efficient Fine-Tuning (PEFT) 技术对不同医学图像分析任务的适用性,通过超过 600 个控制实验,研究并比较了 16 种不同的 PEFT 方法,解决了 PEFT 技术在基础模型中的应用问题,展示了在某些情况下的高达 22% 的表现提高,并证明了 PEFT 对于医学图像识别和文本到图像生成具有实际应用价值。
May, 2023
通过理论分析,本文提出了一种基于 CLIP 模型的多模态分布式机器学习架构下的重构攻击方法 Multm-In-Parvo (MIP),该方法可以根据软提示或适配器的梯度有效地重构 CLIP 模型的训练图像。
Feb, 2024
基于 Transformer 模型的代码 - 文本检索问题上,我们提出了一种使用参数高效微调技术的微调框架,并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验,我们证明了该微调框架有潜力通过微调最多 0.4%的参数来提高代码 - 文本检索性能。
May, 2024