推动科学中的 AI 公平性：通用领域提示学习助力面向普及的 VLM 研究

May, 2024

推动科学中的 AI 公平性：通用领域提示学习助力面向普及的 VLM 研究

Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research

Qinglong Cao, Yuntian Chen, Lu Lu, Hao Sun, Zhenzhong Zeng...

TL;DR大规模视觉语言模型（VLMs）在自然视觉任务中表现出色，推动跨领域的研究者探索特定领域的 VLMs。然而，构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源，这些主要是工业界可用的，却制约了学术界对 VLMs 的研究。为了解决这个挑战，促进可持续和公平的 VLMs 研究，我们提出了广义领域提示学习（GDPL）框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本，使 VLMs 的强大识别能力从自然视觉转移到特定领域，而无需大量数据或资源。通过四元网络，GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识，揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时，GDPL 通过生成的视觉提示特征的分层传导，将视觉分支引向特定领域，建立与视觉语言关系匹配的基础。此外，为了充分发挥 VLMs 的领域自适应潜力，我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性，并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路，消除了学术界与工业界之间的障碍。

Abstract

Large-scale vision-language models (VLMs) have demonstrated exceptional performance in natural vision tasks, motivating researchers across domains to explore domain-specific VLMs. However, the construction of powerful domain-specific VLMs demands vast amounts of annotated data, substan

vision-language models domain-specific models generalized domain prompt learning robust recognition domain adaptation

发现论文，激发创造

域提示学习及其四元数网络

通过使用四元数网络，利用专用领域模型中的领域特定视觉特征引导通用上下文嵌入的转换来实现从通用化到专用化领域的有效识别能力转移，同时采用层次化方法生成视觉提示特征并分析层次化语言提示特征和领域专用视觉特征之间的互模态关系，从而实现在特定领域中有效挖掘互模态关系，促进领域特定的视觉语言对比学习，并通过在特定领域的数据集上进行广泛实验，证明我们的方法在提示学习方面取得了最新的最好的结果。

Dec, 2023

跨域泛化的过渡式视觉 - 语言提示学习

通过使用深度视觉提示以解决域不变性问题，结合语言提示以确保类别可分离性，以及自适应权重机制来平衡域不变性和类别可分离性，本文介绍了一种新的提示学习策略，并通过广泛实验证明深度视觉提示有效提取域不变特征，显著提高深度模型的泛化能力，在三个数据集上取得了最先进的性能。

Apr, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

DAP：面向领域感知的视觉与语言导航提示学习

通过引入低成本提示调整范式来学习特定领域视觉提示，我们提出了一种新颖且模型无关的领域感知提示学习（DAP）框架，以在 VLN 任务中为预训练模型提供特定对象级和场景级跨模态对齐，并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。在 R2R 和 REVERIE 上的实验结果显示，DAP 相比现有的最先进方法具有明显的优势。

Nov, 2023

领域泛化的软提示生成

大型预训练视觉语言模型（VLMs）在下游任务中展现出令人印象深刻的零 - shot 能力，但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法，通过在特定域数据上进行微调，将软提示作为学习向量。我们从生成的角度重构了提示学习框架，并提出了一种简单而高效的域泛化（DG）任务方法，即软提示生成（SPG）。在训练阶段，我们引入了每个领域的软提示标签，以融合生成模型的领域知识。在推理阶段，生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的 SPG 方法达到了最先进的性能。代码将很快提供。

Apr, 2024

使用预训练视觉语言模型的医学图像理解：一项全面研究

本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力，发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示，可实现知识跨越领域，改进泛化能力，对新对象的识别有所优化。此外，通过自动化生成医学提示的三种方法，可以将专家级的医学知识和图像特定信息注入提示语中，进行细粒度的信息定位，试验表明，与默认提示相比，巧妙设计的医学提示显著提高了零样本性能，且微调模型超过了受监督的模型。

Sep, 2022

医学图像分类的基于提示的潜在领域泛化

我们提出了一种名为 Prompt-driven Latent Domain Generalization（PLDG）的新型无标签领域通用化（DG）框架，通过无监督领域发现和提示学习，实现了对医学图像分类的领域通用化，并在三个医学图像分类任务和一个去偏任务上展开了广泛实验，证明了我们的方法在不依赖领域标签的情况下实现了与传统 DG 算法相媲美甚至更好的性能。

Jan, 2024

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

DKPROMPT：领域知识引导视觉 - 语言模型进行开放世界规划

本研究提出了一种名为 DKPROMPT 的新型任务规划与执行框架，通过在 PDDL 中使用领域知识自动化 VLM 提示，实现在开放世界中进行经典规划，结果显示 DKPROMPT 在任务完成率方面优于传统规划、纯 VLM 和其他几个竞争基线。

Jun, 2024

领域控制的提示学习

通过领域控制的提示学习方法，我们利用大规模特定领域基础模型和轻量级神经网络，在特定领域的遥感图像和医学图像中实现了最先进的性能，同时解决了过拟合挑战。

Sep, 2023