视觉语言模型中的主动提示学习
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
本文讨论使用预训练语言模型在自然语言处理中进行主动学习时存在的问题,并提出了使用先前所有的未标注数据来适应目标任务的解决方法,同时也提出了一种简单有效的微调方法来保证适应的语言模型在低资源和高资源情况下都能得到适当的训练,实验结果表明,相比标准的微调方法,我们的方法提供了显著的数据效率改进,这表明一个不良的训练策略可能对主动学习产生灾难性的影响。
Apr, 2021
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
视觉语言模型(VLM)在零射击识别方面表现出色,但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率,并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。
Jan, 2024
在此研究中,我们研究了一种基于文本的视觉与语言模型训练方法,并探索了如何根据下游任务的特点从大型语言模型中采样文本数据,以显著提升视觉识别性能。与先前方法相比,我们展示了达 (交) 领域特定适应的性能提高达 8.4%,精细化识别提高达 8.7%,零标记分类整体平均提高达 3.1%。
Sep, 2023
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验,证明改进后的 VLMs 相较于原来的 zero-shot classification 方法,在准确率上有显著提升。
Apr, 2023
通过逐步可控的比较,我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA,一系列视觉语言模型,无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性,包括多图像推理、增强的上下文学习和更好的世界知识。
Dec, 2023
通过候选伪标签学习方法(CPL)在下游任务中使用适当的候选伪标签细调视觉 - 语言模型(VLMs),以提高 VLMs 在大量无标签数据上的 True 标签包含能力和类别平衡实例选择效果。
Jun, 2024
通过在医学图像分析中引入疾病相关的上下文提示,利用预训练的视觉 - 语言模型(VLMs)的联合能力,提出了一种新的疾病原型学习框架,有效地提升了 VLMs 对新疾病概念的理解和性能,相较于现有方法有明显的提升。
May, 2024