自洽性提升数学推理的校准

Mar, 2024

Self-Consistency Boosts Calibration for Math Reasoning

Ante Wang, Linfeng Song, Ye Tian, Baolin Peng, Lifeng Jin...

TL;DR我们设计了三种基于自洽性的成熟校准方法，用于数学推理任务的 LLM 发展。通过使用开源 LLMs（Mistral 和 LLaMA2）在 GSM8K 和 MathQA 两个流行的基准上进行评估，我们的方法在模型置信度和准确性之间建立了更好的联系，优于基于 p (True) 或 logit 的现有方法。

Abstract

calibration, which establishes the correlation between accuracy and model confidence, is important for llm development. We design three off-the-shelf →

calibration llm development math reasoning tasks self-consistency model confidence

发现论文，激发创造

用样本一致性校准大型语言模型

通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型 (LLM) 预测的准确度。在多个开放和闭源模型上进行广泛评估，结果表明基于一致性的校准方法优于现有的事后方法，并提供了选择适用于不同 LLMs 特性的合适一致性度量标准的实用指南。

Feb, 2024

从大型语言模型中校正长文生成

通过引入统一的校准框架，以及发展三种度量和两种置信度引导方法，提高大规模语言模型的校准能力，并进行了实验验证，进一步展示了大型模型不一定保证更好的校准，校准性能依赖于度量，自一致性方法在基准数据集上表现优异，通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性，此研究不仅挑战了现有大规模语言模型校准的概念，还提供了改善长文生成可信度的实用方法。

Feb, 2024

大规模语言模型在歧义下的自一致性

在含糊的整数序列填充任务中，我们在 OpenAI 模型套件上进行了一系列行为实验，发现平均一致性介于 67％和 82％之间，远高于模型一致性随机的预测，并随着模型能力的提高而增加。此外，我们发现模型在自我一致性上具有不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

Oct, 2023

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将 LLMs 自我评估的潜力展现出来。

May, 2024

LLMs 的多步推理中自洽性的两个失败

本论文主要研究大型语言模型在多步推理中的自我一致性表现，提出假设一致性和组合一致性两个重要概念，并实现对 GPT-3 模型在维基百科，日常对话，算术和地理查询任务中表现不佳的演示。

May, 2023

开放式生成的自我一致性

本文介绍了一个新的方法，通过扩展自一致性的应用范围并使用轻量级无参数相似函数，改善了大规模预训练语言模型生成的质量和一致性，包括代码生成、自动格式化和文本摘要任务。

Jul, 2023

自洽性提高语言模型的思维连贯性推理能力

本文提出了一种新的解码策略 self-consistency 来替代自我解释式激励中的贪心解码，从而在多种常识推理基准测试中提高其性能。

Mar, 2022

LLMs 的置信度评分多重校准

通过使用 “多校准” 技术，本文提出为大型语言模型生成可解释和可靠的置信度分数。通过在各种数据交叉组合上同时校准，可以显著提高校准和准确性。

Apr, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

通过帕累托最优自我监督实现大型语言模型的自动校准和误差修正

本文提出了一种 Pareto 最优的自我监督框架，该框架可以利用可用的程序监督来系统地校准 LLM 响应，为每个响应产生风险分数，从而不需要进行任何额外的人工努力。

Jun, 2023