BriefGPT.xyz
大模型
Ask
alpha
关键词
aligning human preference
搜索结果 - 1
从人类演示中学习奖励优化 SFT 数据:提高 LLM 对齐的方法
对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法,通过学习奖励模型来代替直接使用人类示范数据,并且在整个对齐过程中从始至终地利用奖励学习,取得了显著的性能提升。
PDF
a month ago
Prev
Next