Mar, 2024

自洽性提升数学推理的校准

TL;DR我们设计了三种基于自洽性的成熟校准方法,用于数学推理任务的 LLM 发展。通过使用开源 LLMs(Mistral 和 LLaMA2)在 GSM8K 和 MathQA 两个流行的基准上进行评估,我们的方法在模型置信度和准确性之间建立了更好的联系,优于基于 p (True) 或 logit 的现有方法。