Sep, 2024

多样化与征服:基于多样性的迭代优化数据选择

TL;DR本研究解决了如何选择最优训练数据子集的问题,强调数据多样性的重要性。我们提出了一种基于k-means聚类的迭代优化方法,通过主动学习技术调整样本选择,显著改善了对抗低质量数据的能力。研究结果显示,该方法在多个任务上达到7%的性能提升,显示出多样化采样在大语言模型微调中的重要性。