BriefGPT.xyz
Ask
alpha
关键词
step-controlled dpo
搜索结果 - 1
基于步骤误差控制的 DPO:利用逐步误差提升数学推理
提出了一种名为 Step-Controlled DPO (SCDPO) 的方法,在大型语言模型 (LLM) 上应用全自动逐步错误监督,从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案,通过在 DPO 训练中采用负样本,S
→
PDF
10 days ago
Prev
Next