Feb, 2024

个性化人类反馈的个性化语言建模

TL;DR发展个性化语言模型的方法,结合用户模型和语言(或奖励)模型的学习目标,对个性化语言模型进行强化学习,以更好地满足用户偏好。