Mar, 2024

少即是多:用于视觉指令调优的数据值估计

TL;DR通过对视觉指令数据集的实证研究,发现其存在显著冗余性,因此提出了一种新的数据选择方法 TIVE,它基于计算梯度估计了视觉指令的任务级别和实例级别价值,并根据估计值确定了视觉指令中的任务比例,选择代表性实例组成较小的训练集,实验证明该方法只需使用约 7.5% 的数据即可在七个基准测试中达到与完整数据微调模型相当甚至超过的性能改进。