BriefGPT.xyz
Ask
alpha
关键词
rewards-in-context (ric)
搜索结果 - 1
上下文奖励:基于动态偏好调整的多目标基础模型对齐
通过 Rewards-in-Context(RiC)的方法,本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法,并通过监督微调在推断过程中支持用户偏好的动态调整,从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相
→
PDF
5 months ago
Prev
Next