BriefGPT.xyz
Ask
alpha
关键词
step-by-step answers
搜索结果 - 1
思维链的强弱取决于最薄弱一环:推理链验证器的基准评估
我们引入了 Reveal:推理验证评估,这是一个新的数据集,用于在开放域问题回答设置中评估复杂的链式推理的自动验证器,包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。
PDF
5 months ago
Prev
Next