大型语言模型是否总能解决简单问题，如果它们能解决更困难的呢？

Jun, 2024

大型语言模型是否总能解决简单问题，如果它们能解决更困难的呢？

Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones?

Zhe Yang, Yichang Zhang, Tianyu Liu, Jian Yang, Junyang Lin...

TL;DR研究中提出了 ConsisEval 基准，用于量化大型语言模型的一致性，并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明，尽管 GPT-4 的一致性得分最高，但仍然对特定问题存在不一致性，这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性，但也存在例外情况，并且硬数据能够提高微调和上下文学习的一致性。

Abstract

large language models (LLMs) have demonstrated impressive capabilities, but still suffer from inconsistency issues (e.g. LLMs can react differently to disturbances like rephrasing or inconsequential order change)

large language models inconsistency issues consiseval benchmark consistency score hard-to-easy inconsistency

发现论文，激发创造

大规模语言模型在歧义下的自一致性

在含糊的整数序列填充任务中，我们在 OpenAI 模型套件上进行了一系列行为实验，发现平均一致性介于 67％和 82％之间，远高于模型一致性随机的预测，并随着模型能力的提高而增加。此外，我们发现模型在自我一致性上具有不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

Oct, 2023

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到 90% 的得分。

Apr, 2024

LLMs 的多步推理中自洽性的两个失败

本论文主要研究大型语言模型在多步推理中的自我一致性表现，提出假设一致性和组合一致性两个重要概念，并实现对 GPT-3 模型在维基百科，日常对话，算术和地理查询任务中表现不佳的演示。

May, 2023

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

概念一致性揭示大型语言模型的内部机理

该论文提出了一种概念一致性测量方法，通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应，来测量 LLM 对相关概念的理解程度。研究表明，目前的 LLM 在常识推理方面存在显著差异，并能够向构建具有理解力的人工智能迈进一步。

Sep, 2022

通过一致对齐提升大型语言模型的鲁棒性

定义了指令不一致问题并提出了两阶段训练框架，在第一阶段通过相似指令增强帮助模型跟随指令，第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性，并通过自奖励训练过程来验证该框架的有效性。

Mar, 2024

再问一次，然后失败：大型语言模型在判断中的摇摆

利用教育中的质问策略，我们提出了一种 “跟进质问机制” 以及两个评估指标，用于评估大型语言模型在面对质疑时的判断一致性，并对 ChatGPT、PaLM2-Bison 和 Vicuna-13B 进行了评估。实证结果表明，即使初始答案是正确的，当语言模型面临质疑、否定或误导等干扰时，判断一致性会大幅降低。此外，我们还研究了不同设置下模型的判断一致性，并观察了提示语气对此问题的影响，进行了深入的错误分析以获得更深入的行为洞察。此外，我们还探索了几种提示方法以缓解此问题，并展示了它们的有效性。

Oct, 2023

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023

一致性至关重要：从黑盒角度探索 LLMs 的一致性

我们通过构建 LLM 一致性任务数据集和设计多个基准模型，使用传统的自然语言生成度量标准（即 ROUGE，BLEU，METEOR）作为模型训练所需的特征，在主要实验中超越了人工评估、GPT3.5 以及其他模型，取得了最佳性能，最终利用最佳表现的 LightGBM 模型构建了评估工具，可以有效地帮助业务模型的部署。

Feb, 2024

通过辩论深入探究大型语言模型的内部一致性

在人工智能的领域中，大型语言模型（LLMs）需求渐趋增长。本研究通过命题竞辩框架来探讨多个 LLMs 之间的持续性以及一致性问题，确立了公正比赛，失调比赛和圆桌比赛的三个阶段，并在多个常识推理数据集上进行了广泛的实验，从而提出了令人信服的解决方案

May, 2023