基于声明的提示调整技术用于视觉问答

IJCAIMay, 2022

基于声明的提示调整技术用于视觉问答

Declaration-based Prompt Tuning for Visual Question Answering

Yuhang Liu, Wei Wei, Daowan Peng, Feida Zhu

TL;DR该论文提出了一种名为 DPT 的创新型视觉语言模型微调范式，它通过文本调整和任务调整重新定义视觉问题的目标函数形式来共同优化 VQA 模型的预训练和微调目标，以提高预训练 VL 模型对于下游任务的有效适应性，实验结果表明，DPT 在准确性方面显著优于微调对应物，无论是在完全监督（2.68％）还是零射击 / 少射击（超过 31％）的情况下。

Abstract

In recent years, the pre-training-then-fine-tuning paradigm has yielded immense success on a wide spectrum of cross-modal tasks, such as visual question answering (→

pre-training fine-tuning visual-language model declaration-based prompt tuning vqa

发现论文，激发创造

视觉提示调优

该论文提出了一种名为 Visual Prompt Tuning（VPT）的高效且有效的调整大规模 Transformer 模型的替代方案，相较于 fine-tuning，VPT 仅在输入空间中引入很少的可训练参数，通过在广泛的下游识别任务上的实验，我们发现 VPT 在许多情况下甚至比全尺寸 fine-tuning 更加优秀，同时减小了每个任务的存储成本。

Mar, 2022

测试时间域自适应的视觉提示调控

本文提出一种用于数据有效且准确实现目标领域适应的测试时适应问题解决方案 (Data-efficient Prompt Tuning，DePT)，其使用镜像学习方式将交互式提示信息细化到视觉 Transformer 模型中，在测试时自适应调整模型引用的提示以提升模型对目标域的表示，且具有适用于许多测试适应问题的能力。

Oct, 2022

CPT：用于预训练视觉语言模型的彩色提示调节

该研究提出 Cross-modal Prompt Tuning，一种基于图像和文本的填空问题的视觉定位模型调参范式，能够在少量标记数据下使模型具有强大的零样本或少样本学习能力，实现了视觉与语言的理解与应用。

Sep, 2021

面对房间里的大象：视觉提示调整还是全面微调？

通过对 19 个不同数据集和任务的全面分析，我们发现 Visual Prompt Tuning（VPT）在任务目标差异大或数据分布相似时表现优异，而其成功不仅仅归因于过拟合和优化，而是因为 VPT 保留了原始特征并添加了参数。

Jan, 2024

重访视觉调优的能量与提示

通过关键参数的优化和初始化，我们提出了一种改进的视觉提示调整方法，用于优化预训练模型在下游任务中的性能表现，并在大量实验证明该方法在自我监督预训练适应性上取得了显著的性能改进。

Feb, 2024

针对具有鉴别力的预训练语言模型的提示调节

该论文提出了 DPT 作为针对区分性 PLMs 的 prompt tuning 框架，并将自然语言处理任务转换为区分性语言建模问题。通过全面的文本分类和问答实验表明，与 vanilla fine-tuning 相比，DPT 在全集和低资源环境下都能显著提高性能，并解决了调整大型 PLMs 中的不稳定问题。

May, 2022

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

面向视觉 - 语言模型的分布感知提示调整

通过学习大规模数据的知识，预训练的视觉 - 语言模型（VLMs）在各种下游任务中表现出色。本文提出了分布感知的提示微调（DAPT），通过对齐两种模态之间的特征空间，并对每种模态的嵌入进行良好排列，显著改善了模型的泛化能力。

Sep, 2023

用于视觉语言预训练模型的近似提示调优

本研究提出了一种名为 “Approximated Prompt Tuning” 的方法，用以提高视觉语言预训练模型的迁移学习效率，其基于软提示令牌的独立信息扩散步骤，从而有效地避免了昂贵的全局关注建模，并显著降低了计算复杂度。

Jun, 2023

DVPT：面向医学图像分析的大型预训练模型的动态视觉提示调优

通过引入动态视觉提示调整方法，本研究提出了一种适应多样的医学图像输入变化的参数高效微调方法，命名为 DVPT，该方法从大模型中提取有益于下游任务的知识，可通过仅使用少量可训练参数从零开始训练医学图像分析模型。

Jul, 2023