连线:针对黑盒图像 - 语言模型的协作微调
通过自然语言提示,我们提出了一种新颖的视觉语言模型微调方法,利用基于对话的大型语言模型作为黑盒优化器,在少样本图像分类任务中通过对话过程中的文本反馈,自动搜索最佳文本提示,从而避免了对模型参数、特征嵌入或输出标签的访问。
Sep, 2023
通过合作式黑盒调整,本研究介绍一种参数高效微调方法,用于对视觉语言模型进行特定任务或场景的适应。使用文本提示优化和输出特征调整来处理闭源模型的访问障碍,并在十一个下游基准测试中得到显著改进。
Dec, 2023
通过引入一种称为 CrossTune 的标签增强的交叉注意力网络,该网络在输入文本序列和任务特定标签描述之间建模语义相关性,本研究在少样本文本分类的背景下检验了 CrossTune 的有效性。通过使用 ChatGPT 生成额外的训练数据以提高 CrossTune 的泛化能力,并通过实验验证提出的方法相较于以往梯度自由黑盒调优方法平均提升了 5.7%,即使不使用 ChatGPT 增强数据,CrossTune 的性能也优于或与以往黑盒调优方法相当,这表明了我们方法的有效性。
Mar, 2024
借助 CRaSh 方法,通过探索 Large Language Models (LLMs) 的模块化结构和表示相似性,本文研究了 Offsite-Tuning (OFT) 技术及其与后端模拟器之间的转换,提高其性能并解决隐私问题。研究发现模型大小会导致 LLMs 内层面的唯一模块结构的出现,并注意到隐含的表示和中间预测方面的微妙变化。实验结果证明 CRaSh 和 OFT 的有效性,且细调尝试的结构优化解具有线性连通性。
Oct, 2023
该研究提出 Cross-modal Prompt Tuning,一种基于图像和文本的填空问题的视觉定位模型调参范式,能够在少量标记数据下使模型具有强大的零样本或少样本学习能力,实现了视觉与语言的理解与应用。
Sep, 2021
当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案,即使用蜡笔提示进行指导调整,以提高对象级图像理解能力。此外,我们还提出了双重 QLoRA 学习策略,以在视觉指导调整过程中保持对象级图像理解能力,从而在零样本的多个视觉语言基准测试中取得了显著的进展。
Feb, 2024
CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架,它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。
Apr, 2022
在此研究中,我们研究了一种基于文本的视觉与语言模型训练方法,并探索了如何根据下游任务的特点从大型语言模型中采样文本数据,以显著提升视觉识别性能。与先前方法相比,我们展示了达 (交) 领域特定适应的性能提高达 8.4%,精细化识别提高达 8.7%,零标记分类整体平均提高达 3.1%。
Sep, 2023