Dec, 2024

语言模型作为持续自我进化的数据工程师

TL;DR本研究着眼于大型语言模型(LLM)在高质量训练数据匮乏情况下的性能瓶颈。我们提出了一种名为LANCE的新范式,使LLM能够自主生成、清洗和标注数据,从而作为持续自我进化的数据工程师。实验表明,LANCE显著提高了LLM的表现,降低了后期数据构建的时间和成本,促进了未来超智能系统的发展。