BriefGPT.xyz
大模型
Ask
alpha
关键词
personalized-rlhf
搜索结果 - 1
个性化人类反馈的个性化语言建模
发展个性化语言模型的方法,结合用户模型和语言(或奖励)模型的学习目标,对个性化语言模型进行强化学习,以更好地满足用户偏好。
PDF
5 months ago
Prev
Next