大型语言模型的多语言置信度评估全面研究
评估语言模型预测的可靠性和置信度以及解决其与AI安全需求的关系是一项重要研究领域,本文综述了语言模型置信度估计和校准的方法、技术和挑战,并提出了未来研究的方向。
Nov, 2023
大型语言模型为了赢得人类的信任,需要具备良好的校准能力,准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响,发现默认解释会导致用户过高估计模型的信心和准确性,而更准确反映模型内部可信度的解释能够对用户感知产生显著影响,增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要,特别是需要理解人工智能生成信息可靠性的场景。
Jan, 2024
针对大型语言模型(LLM),特别是黑盒模型的应用,评估输出可信度的置信度估计是关键。现有的LLM置信度估计通常因LLM对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制,即它们仅考虑LLM生成的一个答案的置信度。为了解决这个限制,我们提出了一种新的范式,全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式,我们引入了一个两步框架,首先指导LLM反思并提供每个答案的理由,然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合,实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。
Mar, 2024
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中OpenAI的GPT-4表现出最强的信心-概率对齐性,并有助于评估LLMs的风险和提高对模型可信度的认识。
May, 2024
利用黑盒或查询访问大型语言模型,通过工程化新特征并训练一个可解释的逻辑回归模型,我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明,我们的简单框架在TriviaQA、SQuAD、CoQA和自然提问等基准数据集上,在估算flan-ul2、llama-13b和mistral-7b的置信度时,不仅稳定地优于现有的黑盒置信度估算方法,有时甚至在AUROC上提高超过10%。此外,我们的可解释方法揭示了预测置信度的特征,使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。
Jun, 2024
在高风险应用中使用大型语言模型(LLMs)时,我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的,然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的LLM不确定性估计的机制,并通过用户研究展示了不确定性估计如何影响人与AI的协作环境中的人类使用LLMs。
Jun, 2024
大型语言模型的事实准确性不可靠,为了解决这个问题,自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而,由于缺乏系统性的比较,不清楚不同方法之间的差异。为了填补这一空白,我们提出了一个调查和实证比较事实置信度估计器的实验框架,涵盖了事实验证和问题回答。我们的实验结果表明,训练的隐藏状态探针提供了最可靠的置信度估计,但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现,大型语言模型的置信度在语义上等效的输入中往往不稳定,这表明改进模型参数化知识的稳定性有很大的改进空间。
Jun, 2024
本研究解决了大型语言模型在英语以外语言中信心估计不足的问题。通过引入多语种信心估计(MlingConf)方法,分析了语言无关和语言特定任务的表现差异,发现英语在语言无关任务中的信心估计表现优越,而使用与问题相关的语言进行提示可显著提升语言特定任务的信心估计有效性,从而提高模型的可靠性和准确性。
Oct, 2024
本研究探讨了大型语言模型在多语言环境下的信心估计问题,揭示了当前对非英语语言的研究不足。通过引入多语言信心估计的综合调查,研究发现不同语言在信心估计中的表现及其优势,从而提出了一种有效的本土化提示策略,以提升大型语言模型在特定语言任务中的可靠性和准确性。
Oct, 2024