Mar, 2024

通过受限的直接优化倾向提升 LLM 的安全性

TL;DR通过引入 Constrained DPO (C-DPO) 方法,本研究提出了一种高效且轻量级的方法,用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束,从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。