Mar, 2024

使用合成偏好数据对语言模型进行可配置的安全调整

TL;DR提出了一种 Configurable Safety Tuning (CST) 方法,通过使用合成的偏好数据,来增强 Direct Preference Optimization (DPO) 在推理时对语言模型的灵活安全配置,有效地处理了用户控制受限的问题,并通过引入系统提示来实现灵活地启用 / 禁用安全偏好,数据和模型可以在给出的链接中找到。