Nov, 2024

基于模板的数据生成培训和评估语言模型

TL;DR本研究针对大规模、高质量领域特定数据集的缺乏问题,提出了一种新的模板数据生成方法(TDG),利用GPT-4生成参数化元模板,从而合成出超过700万个小学数学问题及其解决方案。研究发现,该数据集为大规模数学数据集的稀缺问题提供了解决方案,并为预训练、微调和评估语言模型在数学推理中的应用提供了宝贵资源。