BriefGPT.xyz
Ask
alpha
关键词
preference fine-tuning
搜索结果 - 1
LLM 的偏好微调应利用次优的,符合策略的数据
通过对 fine-tuning 技术的分析,我们发现使用 on-policy sampling 或负梯度的方法通常优于离线和最大似然目标,我们将这些方法统一归为对分类分布的寻找模式的目标方法,该方法能够更有效地在分类分布的不同区间进行概率分
→
PDF
3 months ago
Prev
Next