Jun, 2024

UniGen:使用大型语言模型进行文本数据集生成的统一框架

TL;DRUniGen 是一个综合的 LLM 框架,利用创新机制解决现有生成框架中的泛化、可控性、多样性和准确性等挑战,通过引入属性导向的生成模块和检查功能,以及基于代码的数学评估和检索增强生成技术,产生多样、准确和高度可控的数据,并支持用户指定的约束条件,满足特定需求。相比其他生成方法,UniGen 生成的数据质量更高,适用于动态演变的基准测试和数据增强,提升了 LLM 在代理能力和推理技能等领域的能力。