Dec, 2023

多样性和质量胜过数量:朝向多功能教学策划

TL;DR本文介绍了一种高效且多功能的方法,用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据,然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明,即使只有有限数量的高质量指令数据,LLMs 在自然语言理解任务和代码生成任务中仍能保持稳定的性能,特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。