SCORE：自相矛盾推理评估框架

Nov, 2023

SCORE: A framework for Self-Contradictory Reasoning Evaluation

Ziyi Liu, Isabelle Lee, Yongkang Du, Soumya Sanyal, Jieyu Zhao

TL;DR大型语言模型在各种基于语言的任务中展示了出色的推理能力。然而，在强化下游任务性能的许多推理方法提出之后，仍然存在两个基本问题：推理是否真正支持预测，以及推理质量的可靠性如何。本文提出了一个名为 \textsc {SCORE} 的框架，用于分析大型语言模型的推理能力。具体而言，我们关注自相矛盾的推理，即推理与预测不一致的情况。我们发现，在涉及上下文信息和常识的推理任务中，大型语言模型经常自相矛盾。模型可能会错过证据或使用捷径，从而表现出自相矛盾的行为。我们还使用了一种名为 Point-of-View (POV) 的方法作为诊断工具，从多个角度生成推理以进行进一步分析。我们发现，尽管大型语言模型在单一视角设置中表现良好，但在多视角设置中无法稳定该行为。即使对于正确的预测，推理也可能杂乱不堪且不完整，大型语言模型很容易被引导偏离良好的推理。\textsc {SCORE} 的结果凸显了可信赖的推理所需的缺乏鲁棒性，以及进一步研究建立超越准确性度量的推理的最佳实践的紧迫性。

Abstract

large language models (LLMs) have demonstrated impressive reasoning ability in various language-based tasks. Despite many proposed reasoning

large language models reasoning self-contradictory reasoning performance trustworthy reasoning

发现论文，激发创造

TrustScore: 无需参考的 LLM 响应可信度评估

本研究提出了基于行为一致性概念的 TrustScore 框架，用于评估大型语言模型（LLMs）的响应与其内在知识的一致性，同时能够与事实核实方法无缝集成，实现与人类判断强相关性的结果。

Feb, 2024

超越准确性：评估大型语言模型的推理行为 -- 调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到 90% 的得分。

Apr, 2024

评估大型语言模型的程序执行运行时行为

本文提出了一个名为 REval 的框架，用于评估代码 LLM 的代码推理能力和一致性，通过对现有的代码基准进行改进，在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意，强调了提高代码 LLM 的代码推理能力的迫切需求。

Mar, 2024

评估数学推理能力的准确性以外的因素

通过有效性和冗余性评估推理质量，我们提出了 ReasonEval 方法，该方法在数学任务中表现优异，并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。

Apr, 2024

作为间接推理器的大型语言模型：自动推理的逆否和矛盾

本文提出了一种新的间接推理（IR）方法，利用逆否命题和矛盾的逻辑来解决事实推理和数学证明等 IR 任务，以加强大型语言模型（LLMs）的推理能力。与传统 DR 方法相比，我们的 IR 方法通过对话模板触发 LLMs 进行基于矛盾推论的 IR 过程来提高推理准确性，并且与 IR 或 DR 单独使用相比，IR 和 DR 结合的方法表现出更高的效果。

Feb, 2024

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

深入探究大型语言模型在逻辑推理中的自我验证能力

这篇论文研究了大型语言模型在逻辑推理中的自我验证能力，主要关注其准确识别逻辑谬误的能力。通过对包含 232 种谬误的数据集进行实验，发现现有的大型语言模型在准确识别谬误的过程中可能存在困难，并可能不能保证自我验证方法的有效性。论文提出了对未来研究和实际应用自我验证方法的建议。

Nov, 2023

通过辩论深入探究大型语言模型的内部一致性

在人工智能的领域中，大型语言模型（LLMs）需求渐趋增长。本研究通过命题竞辩框架来探讨多个 LLMs 之间的持续性以及一致性问题，确立了公正比赛，失调比赛和圆桌比赛的三个阶段，并在多个常识推理数据集上进行了广泛的实验，从而提出了令人信服的解决方案

May, 2023

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将 LLMs 自我评估的潜力展现出来。

May, 2024