基于超球面空间的参数高效微调用于开放词汇语义分割

May, 2024

基于超球面空间的参数高效微调用于开放词汇语义分割

Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

Zelin Peng, Zhengqin Xu, Zhilin Zeng, Yaoming Wang, Lingxi Xie...

TL;DR使用对称参数高效微调策略在超球面空间中进行，H-CLIP 实现了开放式词汇语义分割的新 SOTA 结果，只需更新 CLIP 总参数的约 4%。

Abstract

open-vocabulary semantic segmentation seeks to label each pixel in an image with arbitrary text descriptions. vision-language foundation models, especially →

open-vocabulary semantic segmentation vision-language foundation models clip parameter-efficient fine-tuning hyperspherical space

发现论文，激发创造

通过交叉块编排进行参数高效微调，用于分割任何模型

我们在这篇论文中提出了一种参数高效微调的方法，使用跨块协同和内部块增强机制实现了 Segment Anything Model (SAM) 在各种新情景下的适应性，并通过实验证明了我们的方法在仅使用约 1K 额外参数的情况下显著提高了分割性能。

Nov, 2023

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

优化语义关联微调的少样本 CLIP

通过对关注池化层进行微调，强调任务特定语义信息的注意力分布，以提高普通少样本学习的 CLIP 模型的效果。

Nov, 2023

参数高效的长尾识别

通过引入 PEL 方法，该研究通过少于 20 个时期的微调，无需额外数据即可适应长尾识别任务，并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题，从而持续优于之前的最佳方法。

Sep, 2023

用两步重述细调 CLIP 文本编码器

通过引入一个简单的微调方法，我们提出了一种改进 CLIP 模型对于释义的表征的方法，该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义，并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进，包括释义检索、Visual Genome 关系和属性，以及七个语义文本相似度任务。

Feb, 2024

监督微调进一步提升视觉基础模型

图像 - 文本训练如 CLIP 已经在近年来直接影响了视觉基础模型的预训练。本文提出了一种名为 ViSFT（Vision SFT）的两阶段方法，通过对一些领域内任务进行视觉联合学习，进而增强视觉基础模型的精细知识。该方法在 8 个 V100 GPU 上不到 2 天的时间内使用 ViSFT 进行更新，展示了一个带有超过 4.4B 参数的视觉转换器在包括视觉和视觉 - 语言场景在内的各种领域外基准测试中的改进。

Jan, 2024

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

医学图像分析的参数高效微调：错过的机会

本文首次全面评估 Parameter-Efficient Fine-Tuning (PEFT) 技术对不同医学图像分析任务的适用性，通过超过 600 个控制实验，研究并比较了 16 种不同的 PEFT 方法，解决了 PEFT 技术在基础模型中的应用问题，展示了在某些情况下的高达 22% 的表现提高，并证明了 PEFT 对于医学图像识别和文本到图像生成具有实际应用价值。

May, 2023

基于 CLIP 的从 PEFT 梯度的图像重建

通过理论分析，本文提出了一种基于 CLIP 模型的多模态分布式机器学习架构下的重构攻击方法 Multm-In-Parvo (MIP)，该方法可以根据软提示或适配器的梯度有效地重构 CLIP 模型的训练图像。

Feb, 2024

针对检索任务的细化联合文本和源代码嵌入优化与参数高效微调

基于 Transformer 模型的代码 - 文本检索问题上，我们提出了一种使用参数高效微调技术的微调框架，并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验，我们证明了该微调框架有潜力通过微调最多 0.4％的参数来提高代码 - 文本检索性能。

May, 2024