Oct, 2023

个性化汤:通过事后参数合并实现个性化大型语言模型对齐

TL;DR通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF),通过多目标强化学习问题的建模,可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解,并在分布式环境中独立有效地进行训练,最后通过参数合并有效地实现多维度的个性化对齐。