大型语言模型中的置信度和概率一致性调查

May, 2024

大型语言模型中的置信度和概率一致性调查

Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models

Abhishek Kumar, Robert Morabito, Sanzhar Umbet, Jad Kabbara, Ali Emami

TL;DR通过使用各种数据集和提示技术，本研究探索了大型语言模型（LLMs）内部信心与其对外表达的一致性，其中OpenAI的GPT-4表现出最强的信心-概率对齐性，并有助于评估LLMs的风险和提高对模型可信度的认识。

Abstract

As the use of large language models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of →

发现论文，激发创造

LLMs是否能够表达他们的不确定性？LLMs中置信度引出的经验评估

本研究探讨了不需要模型微调或专有信息的自信度引出方法，通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估，揭示了语言模型的自信度过高以及一些方法的优点。

Jun, 2023

值得信赖的LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对LLM值得信赖性进行评估时需要考虑的关键维度，包括对LLM的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的LLM进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在LLM对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的LLM部署至关重要。

Aug, 2023

大型语言模型中的自信-能力差距：一项认知研究

研究通过对大型语言模型（LLMs）的认知能力和置信度动态的深入了解，揭示了模型中展现高置信度但回答错误的情况，类似于人类心理学中的邓宁-克鲁格效应，以及低置信度但回答正确的情况，展示了潜在的低估偏差，强调了对这些语言模型认知过程的深入研究的必要性，以进一步拓展其功能和应用领域。

Sep, 2023

大型语言模型中模型和人类置信度之间的校准差距

大型语言模型为了赢得人类的信任，需要具备良好的校准能力，准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响，发现默认解释会导致用户过高估计模型的信心和准确性，而更准确反映模型内部可信度的解释能够对用户感知产生显著影响，增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要，特别是需要理解人工智能生成信息可靠性的场景。

Jan, 2024

大型语言模型的多语言置信度评估全面研究

大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧, 本文通过引入多语言置信度估计(MlingConf)对大语言模型进行全面调查, 包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出, 实验结果表明该跨语言置信度估计技术能显著提高置信度估计。

Feb, 2024

大型语言模型的置信度估计：基于多个答案反思之前三思

针对大型语言模型（LLM），特别是黑盒模型的应用，评估输出可信度的置信度估计是关键。现有的LLM置信度估计通常因LLM对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制，即它们仅考虑LLM生成的一个答案的置信度。为了解决这个限制，我们提出了一种新的范式，全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式，我们引入了一个两步框架，首先指导LLM反思并提供每个答案的理由，然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合，实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。

Mar, 2024

何时可以信赖LLMs：将自信与回答质量对齐

我们提出了一种名为CONQORD的方法，利用强化学习和定制的双组分奖励函数，通过对齐可信度和响应质量来提高大型语言模型的可靠性和对齐表现，从而指导何时信任LLMs并在检索过程中使用外部知识。

Apr, 2024

大型语言模型信心估计通过黑盒访问

利用黑盒或查询访问大型语言模型，通过工程化新特征并训练一个可解释的逻辑回归模型，我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明，我们的简单框架在TriviaQA、SQuAD、CoQA和自然提问等基准数据集上，在估算flan-ul2、llama-13b和mistral-7b的置信度时，不仅稳定地优于现有的黑盒置信度估算方法，有时甚至在AUROC上提高超过10%。此外，我们的可解释方法揭示了预测置信度的特征，使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。

Jun, 2024

在自然语言推理中定义和评估语言模型的决策风险和复合风险

本研究针对大型语言模型（LLMs）在推理中的不当信心所带来的风险，提出了决策风险和复合风险的定义以及评估框架。研究表明，该框架能够使模型更自信地处理特定低风险任务，同时有效跳过高风险任务，从而显著提升推理的准确性和安全性。

Aug, 2024

多语言信心估计的综合研究：基于大型语言模型的 MlingConf

本研究探讨了大型语言模型在多语言环境下的信心估计问题，揭示了当前对非英语语言的研究不足。通过引入多语言信心估计的综合调查，研究发现不同语言在信心估计中的表现及其优势，从而提出了一种有效的本土化提示策略，以提升大型语言模型在特定语言任务中的可靠性和准确性。

Oct, 2024