Jun, 2024

生成文本中句法模板的检测与测量

TL;DR我们提供了在模型中表征模板化文本的句法特征分析,并发现模型生成的文本中大多数(76%)模板可以在预训练数据中找到(相比之下,人工编写的文本中仅有 35%),并且在 RLHF 等微调过程中不会被覆盖,这使得我们能够在没有预训练数据的情况下分析模型中的句法模板。我们还发现,句法模板作为特征可以区分模型、任务和领域,并且对于定性评估常见的模型构建非常有用。最后,我们演示了使用模板作为分析 LLMs 训练数据风格记忆的有用工具。