连线：针对黑盒图像 - 语言模型的协作微调

Feb, 2024

连线：针对黑盒图像 - 语言模型的协作微调

Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models

Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan

TL;DR该论文提出了一种名为 CraFT 的协作微调方法，用于将黑盒预训练视觉语言模型应用于下游任务，通过仅获得输入提示和输出预测来优化模型，并在少样本分类上展示出显著的结果。

Abstract

With the emergence of pretrained vision-language models (VLMs), considerable efforts have been devoted to fine-tuning them for downstream tasks. Despite the progress made in designing efficient →

pretrained vision-language models fine-tuning collaborative fine-tuning black-box models few-shot classification

发现论文，激发创造

语言模型作为视觉 - 语言模型的黑盒优化器

通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

Sep, 2023

有效梯度逼近下的视觉 - 语言模型的黑盒调优

通过合作式黑盒调整，本研究介绍一种参数高效微调方法，用于对视觉语言模型进行特定任务或场景的适应。使用文本提示优化和输出特征调整来处理闭源模型的访问障碍，并在十一个下游基准测试中得到显著改进。

Dec, 2023

CrossTune: 基于黑盒的标签增强的小样本分类

通过引入一种称为 CrossTune 的标签增强的交叉注意力网络，该网络在输入文本序列和任务特定标签描述之间建模语义相关性，本研究在少样本文本分类的背景下检验了 CrossTune 的有效性。通过使用 ChatGPT 生成额外的训练数据以提高 CrossTune 的泛化能力，并通过实验验证提出的方法相较于以往梯度自由黑盒调优方法平均提升了 5.7%，即使不使用 ChatGPT 增强数据，CrossTune 的性能也优于或与以往黑盒调优方法相当，这表明了我们方法的有效性。

Mar, 2024

VeCAF: 基于 VLM 的协同主动微调与训练目标感知

PVM 领域的挑战与新方法 VeCAF：通过聚合主动微调和语言嵌入增强数据选择以提高图像分类的效率和性能。

Jan, 2024

CRaSh：聚类、剪枝和共享增强细调，无需完整大型语言模型

借助 CRaSh 方法，通过探索 Large Language Models (LLMs) 的模块化结构和表示相似性，本文研究了 Offsite-Tuning (OFT) 技术及其与后端模拟器之间的转换，提高其性能并解决隐私问题。研究发现模型大小会导致 LLMs 内层面的唯一模块结构的出现，并注意到隐含的表示和中间预测方面的微妙变化。实验结果证明 CRaSh 和 OFT 的有效性，且细调尝试的结构优化解具有线性连通性。

Oct, 2023

CPT：用于预训练视觉语言模型的彩色提示调节

该研究提出 Cross-modal Prompt Tuning，一种基于图像和文本的填空问题的视觉定位模型调参范式，能够在少量标记数据下使模型具有强大的零样本或少样本学习能力，实现了视觉与语言的理解与应用。

Sep, 2021

CoLLaVO: 蜡笔大规模语言与视觉模型

当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Feb, 2024

CombLM：通过小型微调模型调整黑盒语言模型

一种适用于新任务和域的轻量级语言模型细调方法，采用小型白盒模型细调结合概率级别的大型黑盒模型，可显着提高机器翻译等任务的性能。

May, 2023

用对比提示调整使预训练语言模型成为端到端的小样本学习模型

CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架，它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。

Apr, 2022

TAP：针对视觉分类任务自适应生成文本训练实例的有针对性提示

在此研究中，我们研究了一种基于文本的视觉与语言模型训练方法，并探索了如何根据下游任务的特点从大型语言模型中采样文本数据，以显著提升视觉识别性能。与先前方法相比，我们展示了达 (交) 领域特定适应的性能提高达 8.4％，精细化识别提高达 8.7％，零标记分类整体平均提高达 3.1％。

Sep, 2023