Feb, 2024

思维链的强弱取决于最薄弱一环:推理链验证器的基准评估

TL;DR我们引入了 Reveal:推理验证评估,这是一个新的数据集,用于在开放域问题回答设置中评估复杂的链式推理的自动验证器,包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。