你的视觉语言模型本身就是一个强大的过滤器：走向高质量的指令调优与数据选择

Feb, 2024

你的视觉语言模型本身就是一个强大的过滤器：走向高质量的指令调优与数据选择

Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection

Ruibo Chen, Yihan Wu, Lichang Chen, Guodong Liu, Qi He...

TL;DR通过将自己作为过滤器，利用训练后的评分网络来衡量每个指令的难度，并选择最具挑战性的样本，自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果，并取得优于竞争基线的性能。

Abstract

data selection in instruction tuning emerges as a pivotal process for acquiring high-quality data and training instruction-following large language models (LLMs), but it is still a new and unexplored research are

data selection instruction tuning vision-language models dataset selection self-filter

发现论文，激发创造

视觉语言指导调整：综述与分析

通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整，并通过相应的度量指标进行了大量实验，以论证本文提出的构建原则的合理性。

Nov, 2023

重新思考视觉语言模型中被忽视的方面

该论文研究了大型视觉语言模型（LVLMs）中数据效率的常常被忽视的方面，以及预训练和微调数据的选择过程，旨在优化数据使用来增强视觉语言模型的性能。

May, 2024

从数量到质量：通过自导数据选择提高 LLM 性能以进行指令调整

大型语言模型的自主选择优化方法以及通过 IFD 指标识别差异以提高模型训练效率的研究对于提高 LLM 的效率和资源利用具有重要意义。

Aug, 2023

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

Superfiltering：快速指令调整的弱到强数据过滤

通过 Superfiltering 方法，利用弱模型选择数据用于训练更大的语言模型，不仅大大提高了数据过滤速度，而且在标准基准测试中取得了更好的性能表现。

Feb, 2024

LLM 指导调优的数据选择调查

通过介绍使用的指导数据集，提出了数据选择方法的新分类，并详细介绍了最近的研究进展、评估策略和结果，强调了这一任务的挑战和新的前沿。

Feb, 2024

LOVM: 语言优先视觉模型选择

本研究提出了一种热门研究课题，即如何对多模态视觉 - 语言模型进行选择和预测，并利用新的基准测试 LOVM 来进行考核评估。

Jun, 2023

无过滤器：对比式视觉语言模型中的文化和社会经济多样性

该研究探讨了视觉 - 语言模型中的文化和社会经济多样性，研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象，并提出了一种改进方法以提高文化多样性。

May, 2024

选择与概括：选择性双教师知识迁移用于视觉语言模型的持续学习

大规模视觉语言模型（VLMs）展示了对未见域数据具有强大的零样本泛化能力。然而，适应预训练的 VLMs 并执行一系列下游任务时，它们容易忘记以前学到的知识并降低其零样本分类能力。为解决这个问题，我们提出了一种独特的选择性双教师知识迁移框架，利用最新的精细调整和原始的预训练 VLMs 作为双教师来保留以前学到的知识和零样本能力。通过仅访问未标记的参考数据集，我们提出的框架通过测量双教师 VLMs 的特征差异来执行选择性知识蒸馏机制。因此，我们的选择性双教师知识蒸馏将缓解以前学到的知识的灾难性遗忘，同时保留预训练 VLMs 的零样本能力。通过对基准数据集进行大量实验，我们证明了我们的提出的框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。

Mar, 2024

基于质量驱动数据选择的课程学习

通过利用图像文字相互关系和模型困惑度评估选择数据的品质，本研究提出了一种利用两个属性在二维空间选择数据的数据选择方法。研究结果表明，相比于使用完整数据集，在五种常见能力上得到了显著提升，可以构建不同品质的多阶段子集以促进课程学习。

Jun, 2024