Jul, 2024

LLM 见行:引导数据生成以实现非可微目标

TL;DR使用合成数据生成的模型对其他大型语言模型产生的影响与其它模型通过提炼数据的方式发生关系,研究了合成数据整合的后果,进而详细研究了合成数据来源对模型内部偏见、校准以及生成的文本属性和偏好等方面的影响。研究发现,模型在某些属性上表现出惊人的敏感性,即使合成数据的提示看起来 “中性”。这引发了一个问题,即这种敏感性是否可以被利用于有益的目的。我们的研究结果呼唤讨论:我们是否可以在测试时通过利用数据生成过程明确地引导模型朝着我们想要的属性方向发展?这在过去被认为是不可行的,因为收集具有特定特征或目标的数据成本很高。然而,合成数据质量的提高以及向遵循多样化指令的通用模型的转变,使这个问题具有及时性。我们提出了 “主动继承” 的概念,用于描述根据不可微分目标故意限制合成数据。我们展示了如何通过主动继承来引导模型生成具有良好的非可微分属性,例如高词汇多样性或低毒性。