Jun, 2024

RuleR: 基于规则的数据循环利用提高 LLM 可控性

TL;DR大型语言模型仍然缺乏对其回应的精细控制能力,对提高性能和用户体验至关重要。为了弥补这一差距,我们提出了基于规则的数据重用方法 (RuleR),该方法根据预定义的规则将多个约束集成到原始数据样本中,从而创建新的训练任务以巩固语言模型的可控性。实验证明,RuleR 在提高语言模型可控性的同时保持了普通指令跟随能力。