多样化与征服:基于多样性的迭代优化数据选择
本文提出了InstructMining用于评估指令遵循数据的质量,并使用该方法选择高质量数据进行Fei调。研究结果表明,使用InstructMining所选择的数据集表现出更优的性能。
Jul, 2023
通过引入自我演变机制DiverseEvol,我们提出了一种标签高效的指令调整方法,该方法允许模型自己主动采样同样或更有效的子集来改善自身性能,而无需人类干预或更先进的LLMs。在选择子集时,我们的数据采样技术的关键在于增强所选子集的多样性,使模型根据当前的嵌入空间选择与任何现有数据点都不同的新数据点。在三个数据集和基准测试中进行的大量实验证明了DiverseEvol的有效性。我们的模型在原始数据集的不到8%的训练基础上,与在完整数据上进行微调相比,性能保持或提高。我们还提供实证证据分析了多样性在指令数据中的重要性以及迭代方案与一次性采样的区别。我们的代码可以在此https URL公开获取。
Nov, 2023
本文介绍了一种高效且多功能的方法,用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据,然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明,即使只有有限数量的高质量指令数据,LLMs在自然语言理解任务和代码生成任务中仍能保持稳定的性能,特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。
Dec, 2023
本研究旨在选择数据子集用于大型语言模型的微调,以更有效地按照指令执行。我们使用决定性点过程来捕捉指令微调数据集的多样性和质量,提出使用以对数行列式距离衡量数据集的多样性。实验证明,在归一化权重梯度空间中所提出的多样性度量与下游指令跟随性能有关,可用于确定数据选择何时最有帮助,并分析数据集的策略。我们在各种指令微调数据集上展示了我们方法的实用性。
Feb, 2024
通过基于样本学习百分比的训练数据选择,我们展示了当前语言模型具备自主选择高质量训练数据的能力,这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。
Feb, 2024
使用Clustering and Ranking (CaR)方法,根据专家偏好选择高质量的指导数据,通过提供数据集多样性来确保高质量数据选择,实验结果表明,CaR方法仅使用1.96%的Alpaca的IT数据子集,训练的AlpaCaR模型在GPT-4评估中平均优于Alpaca 32.1%,同时该方法只需要使用355M参数的小型模型,并且比现有方法仅需11.2%的经济成本,适用于工业场景。
Feb, 2024
基于混合专家模型(Mixture-of-Experts),提出了一种动态数据混合的处理方法以优化模型性能,通过动态地调整训练数据的采样权重,减少数据集中的冗余,从而在有限的训练预算下最大化整体性能。
Jun, 2024
本研究针对指令调优中存在的数据评估和选择方法的知识空白,系统综述现有文献,并将相关方法分类为基于质量、基于多样性和基于重要性的三大类。研究指出,现有方法在选择数据点时存在局限性,并为未来研究提出了可能的方向。
Aug, 2024
本研究旨在解决当前指令调优过程中存在的数据评估指标不足的问题。通过全面回顾现有文献,我们系统性地分类并细化了数据选择方法,为指令调优提供了新的视角和方法论。研究最重要的发现是,提出的统一分类法可以有效指导未来的数据选择研究,从而提升大型语言模型的性能。
Aug, 2024
本研究针对大型语言模型(LLMs)在指令调整中存在的模型特征偏倚问题,提出了一种新颖的数据合成方法DELIA,以提高模型适应性的潜力。DELIA通过优化指令调整中的偏倚特征,将其转化为理想特征的近似,从而在多项测试中获得了显著性能提升,表明其在促进数据驱动的学习方面具有重要影响。
Aug, 2024