BriefGPT.xyz
Ask
alpha
关键词
on-policy sampling
搜索结果 - 2
在线和离线配准算法之间性能差距的理解
通过一系列实验证明在线方法优于离线方法,且离线算法训练的策略对生成任务更差,而在线算法对成对分类较差,提示在线采样在人工智能对齐中扮演了关键角色,并暗示了离线对齐算法的一些基本挑战。
PDF
2 months ago
LLM 的偏好微调应利用次优的,符合策略的数据
通过对 fine-tuning 技术的分析,我们发现使用 on-policy sampling 或负梯度的方法通常优于离线和最大似然目标,我们将这些方法统一归为对分类分布的寻找模式的目标方法,该方法能够更有效地在分类分布的不同区间进行概率分
→
PDF
3 months ago
Prev
Next