BriefGPT.xyz
大模型
Ask
alpha
关键词
preference estimation
搜索结果 - 1
直觉微调:将 SFT 和 RLHF 统一为单一流程
Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型(LMs)能力的两个基本过程,它们可以更好地与人类偏好相一致,然
→
PDF
a month ago
Prev
Next