BriefGPT.xyz
Ask
alpha
关键词
self-improvement approaches
搜索结果 - 1
V-STaR:自主学习推理器的验证器训练
通过使用 DPO 判断模型生成的正确和错误解,V-STaR 提出了一种利用自我改进过程中生成的正确和错误解的方法,用于训练验证器,并在推理时从众多候选解中选择一种解,多次运行 V-STaR 可以逐渐提升推理能力和正确性,并在常见代码生成和数
→
PDF
5 months ago
Prev
Next