Jun, 2024

技能混合:学习为优化大型语言模型的数据使用进行微调

TL;DR我们提出了一种通用的、模型无关的强化学习框架 Mixture-of-Skills (MoS),它能在微调过程中自动优化数据使用,以实现大型语言模型的全面技能发展。我们通过在两个广泛使用的基准测试上进行大量实验证明 MoS 显著提高了模型性能,同时在任务特定微调方面,我们提出了一种适应性技术 MoSpec,为特定目的利用各种数据集的效用。我们的工作强调了数据集的再平衡的重要性,并将 MoS 提出为优化大型语言模型微调过程中数据使用的强大通用解决方案。