BriefGPT.xyz
Ask
alpha
关键词
process-supervised reward models
搜索结果 - 2
易于困难泛化:超越人类监督的可扩展对齐
通过从易到难的泛化和评估者的使用,本文提出一种可扩展的 AI 对齐方法,用于解决超越人类监督水平的困难推理任务,提升生成器模型在数学问题上的准确率。
PDF
4 months ago
逐步强化
通过利用人类反馈的强化学习方法,本研究探索了两种奖励机制:基于结果监督的奖励模型和基于过程监督的奖励模型,以优化语言模型的逻辑推理能力,结果显示基于过程监督的方法可以提高简单数学推理的准确性,但意外地降低了复杂任务的表现,并且认为奖励聚合函
→
PDF
8 months ago
Prev
Next