Oct, 2023
Safe RLHF: 安全的强化学习从人类反馈中
Safe RLHF: Safe Reinforcement Learning from Human Feedback
TL;DR利用Safe Reinforcement Learning from Human Feedback(Safe RLHF)算法,通过训练单独的奖励和成本模型,实现了对大型语言模型(LLMs)在帮助性和无害性上进行人类价值调整,以最大化奖励函数并满足成本约束条件;通过实验证明与现有的值对齐算法相比,Safe RLHF在减轻有害回应的能力和提高模型性能方面更为优越。