Apr, 2024
CodecLM: 用定制的合成数据对齐语言模型
CodecLM: Aligning Language Models with Tailored Synthetic Data
TL;DR通过使用编码-解码原理,我们引入了CodecLM,这是一个用于自适应生成与不同后续指令分布和大语言模型对齐的高质量合成数据的通用框架。在编码过程中,我们将种子指令转化为元数据,然后通过解码来创建定制的指令。我们还引入自我评分和对比过滤来定制数据样本,经过在四个开放领域指令遵循基准测试上的大量实验证明,CodecLM相对于当前技术水平具有显著的效果。