Oct, 2023
个性化汤:通过事后参数合并实现个性化大型语言模型对齐
Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging
Joel Jang, Seungone Kim, Bill Yuchen Lin, Yizhong Wang, Jack Hessel...
TL;DR通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF),通过多目标强化学习问题的建模,可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解,并在分布式环境中独立有效地进行训练,最后通过参数合并有效地实现多维度的个性化对齐。