语言模型作为视觉 - 语言模型的黑盒优化器

Sep, 2023

语言模型作为视觉 - 语言模型的黑盒优化器

Language Models as Black-Box Optimizers for Vision-Language Models

Samuel Yu, Shihong Liu, Zhiqiu Lin, Deepak Pathak, Deva Ramanan

TL;DR通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

Abstract

vision-language models (vlms) pre-trained on web-scale datasets have demonstrated remarkable capabilities across a variety of vision and multimodal tasks. Currently, →

vision-language models fine-tuning vlms natural language prompts chat-based llms

发现论文，激发创造

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉 - 语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

TAP：针对视觉分类任务自适应生成文本训练实例的有针对性提示

在此研究中，我们研究了一种基于文本的视觉与语言模型训练方法，并探索了如何根据下游任务的特点从大型语言模型中采样文本数据，以显著提升视觉识别性能。与先前方法相比，我们展示了达 (交) 领域特定适应的性能提高达 8.4％，精细化识别提高达 8.7％，零标记分类整体平均提高达 3.1％。

Sep, 2023

语音化机器学习：重新审视用语言模型进行机器学习

我们引入了口头化机器学习 (VML) 框架，通过限制参数空间为人类可解释的自然语言，将大型语言模型 (LLMs) 视为由文本提示参数化的函数，通过 VML，我们重新审视经典的机器学习问题，如回归和分类，发现这些问题可以通过 LLM 参数化的学习器和优化器来解决，VML 的主要优势包括容易编码归纳偏差、自动模型选择和解释性学习器更新，我们进行了多项研究来评估 VML 的有效性，并希望 VML 能成为机器学习中更强解释能力和可信度的垫脚石。

Jun, 2024

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

基于 LLM 增强的提示调整的无数据多标签图像识别

提出了一种无需训练数据的多标签图像识别新框架，利用预训练大型语言模型（LLM）的知识学习提示，使预训练的视觉 - 语言模型（VLM）如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识，为学习提示提供宝贵的文本描述。然后，通过考虑多标签依赖性，提出了一种层次化的提示学习方法，在对象具有相似属性或更有可能共现时，共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性，从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集（MS-COCO、VOC2007 和 NUS-WIDE）上进行的大量实验证明，我们的方法比现有方法取得更好的结果，尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。

Mar, 2024

CLAMP：对比式语言模型启发调节

研究论文简介：本文研究了大型语言模型在图像分类方面的应用，通过对多模态语言模型进行轻微微调，使用对比式图像 - 标题匹配目标，取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能，同时保留了语言模型的生成能力。

Dec, 2023

语言感知的视觉与语言基础模型软提示

本文介绍了一种软提示学习的方法，用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离，进而提高模型性能，并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明，该方法显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。

Oct, 2022

探索用于不平衡学习的视觉 - 语言模型

本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题，提出了加入 lightweight decoder 和 imbalanced 方法的改进方案，并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验，证明改进后的 VLMs 相较于原来的 zero-shot classification 方法，在准确率上有显著提升。

Apr, 2023

改进提示调整中的文本语义是否可以提高 VLM 的泛化能力？

通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

May, 2024