基于概念技能可转移性的数据选择方法用于大规模视觉语言模型

Jun, 2024

基于概念技能可转移性的数据选择方法用于大规模视觉语言模型

Concept-skill Transferability-based Data Selection for Large Vision-Language Models

Jaewoo Lee, Boyang Li, Sung Ju Hwang

TL;DR通过使用小模型作为参考模型，COINCIDE 是一种有效且可伸缩的数据选择技术，可用于选择用于目标 LVLM 的高效微调的视觉指令数据，重点关注多样性和可转移性。

Abstract

instruction tuning, or supervised finetuning on extensive task-specific data, is necessary for large vision-language models (LVLMs) to gen

instruction tuning supervised finetuning large vision-language models coincide data selection technique

发现论文，激发创造

C3L: 通过对比学习生成与内容相关的视觉语言指导调参数据

通过对图像指令的相关性评分进行计算以增强 VLIT 数据与图像之间的内容相关性，并引入对比学习模块进一步提高大规模视觉语言模型的 VLIT 数据生成能力。

May, 2024

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

选择与概括：选择性双教师知识迁移用于视觉语言模型的持续学习

大规模视觉语言模型（VLMs）展示了对未见域数据具有强大的零样本泛化能力。然而，适应预训练的 VLMs 并执行一系列下游任务时，它们容易忘记以前学到的知识并降低其零样本分类能力。为解决这个问题，我们提出了一种独特的选择性双教师知识迁移框架，利用最新的精细调整和原始的预训练 VLMs 作为双教师来保留以前学到的知识和零样本能力。通过仅访问未标记的参考数据集，我们提出的框架通过测量双教师 VLMs 的特征差异来执行选择性知识蒸馏机制。因此，我们的选择性双教师知识蒸馏将缓解以前学到的知识的灾难性遗忘，同时保留预训练 VLMs 的零样本能力。通过对基准数据集进行大量实验，我们证明了我们的提出的框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。

Mar, 2024

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

少即是多：用于视觉指令调优的数据值估计

通过对视觉指令数据集的实证研究，发现其存在显著冗余性，因此提出了一种新的数据选择方法 TIVE，它基于计算梯度估计了视觉指令的任务级别和实例级别价值，并根据估计值确定了视觉指令中的任务比例，选择代表性实例组成较小的训练集，实验证明该方法只需使用约 7.5% 的数据即可在七个基准测试中达到与完整数据微调模型相当甚至超过的性能改进。

Mar, 2024

你的视觉语言模型本身就是一个强大的过滤器：走向高质量的指令调优与数据选择

通过将自己作为过滤器，利用训练后的评分网络来衡量每个指令的难度，并选择最具挑战性的样本，自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果，并取得优于竞争基线的性能。

Feb, 2024

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

利用图像理解的自我训练增强大型视觉语言模型

采用自我训练方法提高大型视觉语言模型在图像理解方面的能力，通过自动生成偏好图像描述来构建图像理解的偏好数据集，利用少量的现有数据进行自我改进，验证了其在七个不同基准测试中的有效性和潜力。

May, 2024

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024