Nov, 2024

DiffLM:通过扩散语言模型进行可控合成数据生成

TL;DR本研究解决了利用大型语言模型生成高质量合成数据时面临的目标数据分布理解不足和复杂提示工程的问题。我们提出的DiffLM框架结合变分自编码器和扩散模型,通过解耦目标分布知识的学习和生成目标,实现了更高的信息保留和格式结构的控制。评估结果显示,DiffLM在七个真实世界数据集上的下游任务性能超过了真实数据2-7%。