Jan, 2025
Condor:通过知识驱动的数据合成与精炼增强大型语言模型的对齐
Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and
Refinement
TL;DR本研究解决了大型语言模型(LLMs)在高质量监督细化(SFT)数据短缺问题,提出了一种名为Condor的两阶段合成数据生成框架。Condor结合了世界知识树和自我反思精炼,能够大规模生成高质量的SFT数据,实验证明仅使用Condor生成的2万个样本微调的基础模型,其性能优于对照组,并且该框架的迭代自我改进能力为各种规模的LLMs提供了验证其有效性的途径。