Aug, 2024
释放数据洪流的力量:关于语言模型指令调优的数据评估与选择的全面调查
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data
Assessment and Selection for Instruction Tuning of Language Models
TL;DR本研究旨在解决当前指令调优过程中存在的数据评估指标不足的问题。通过全面回顾现有文献,我们系统性地分类并细化了数据选择方法,为指令调优提供了新的视角和方法论。研究最重要的发现是,提出的统一分类法可以有效指导未来的数据选择研究,从而提升大型语言模型的性能。