Jun, 2024
RuleR: 基于规则的数据循环利用提高 LLM 可控性
RuleR: Improving LLM Controllability by Rule-based Data Recycling
Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li...
TL;DR大型语言模型仍然缺乏对其回应的精细控制能力,对提高性能和用户体验至关重要。为了弥补这一差距,我们提出了基于规则的数据重用方法 (RuleR),该方法根据预定义的规则将多个约束集成到原始数据样本中,从而创建新的训练任务以巩固语言模型的可控性。实验证明,RuleR 在提高语言模型可控性的同时保持了普通指令跟随能力。