BriefGPT.xyz
Ask
alpha
关键词
active preference optimization
搜索结果 - 1
通过主动偏好优化的可证明样本高效强化学习
基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好相一致的关键所在。然而,依赖高质量的人类偏好数据却在 RLHF 的实际实施中构成了昂贵的瓶颈。因此,需要更好和适应性更强的数据收集策略。为此,我们将 RLHF 构建为一
→
PDF
5 months ago
Prev
Next