思维周期: 通过稳定解释衡量LLM的信心
该研究探讨了基于黑盒LLMs的自然语言生成的不确定性计量,提出几个置信度/不确定度统计度量标准,并发现语义分散的平均值可以作为评估LLMs响应质量的可靠指标。
May, 2023
本研究探讨了不需要模型微调或专有信息的自信度引出方法,通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估,揭示了语言模型的自信度过高以及一些方法的优点。
Jun, 2023
BSDetector通过估计预训练的大型语言模型生成的任何输出的数值置信度得分,引入了检测不良和推测性答案的方法。通过采样多个LLM的响应并考虑最高置信度得分的响应,我们还可以从相同的LLM获取更准确的响应,而无需任何额外的训练步骤。
Aug, 2023
在这项研究中,我们尝试量化大型语言模型(LLM)解释的不确定性。为此,我们提出了两个新的度量标准——“口头化不确定性”和“探测不确定性”,用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计,而探测不确定性的估计与解释的忠实度相关,较低的不确定性对应于较高的忠实度。这项研究为量化LLM解释的不确定性带来了洞察,有助于更广泛地探讨基础模型的可靠性。
Nov, 2023
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中OpenAI的GPT-4表现出最强的信心-概率对齐性,并有助于评估LLMs的风险和提高对模型可信度的认识。
May, 2024
我们在大型语言模型中探索不确定性量化,旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性,从中推论出一种信息论度量,可可靠地检测只有认识论不确定性较大的情况,从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉,在单答案和多答案响应中均适用。与许多标准的不确定性量化策略(例如,将响应的对数似然度阈值化)不同,无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外,我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大,这可能具有独立的研究价值。
Jun, 2024
大型语言模型的事实准确性不可靠,为了解决这个问题,自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而,由于缺乏系统性的比较,不清楚不同方法之间的差异。为了填补这一空白,我们提出了一个调查和实证比较事实置信度估计器的实验框架,涵盖了事实验证和问题回答。我们的实验结果表明,训练的隐藏状态探针提供了最可靠的置信度估计,但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现,大型语言模型的置信度在语义上等效的输入中往往不稳定,这表明改进模型参数化知识的稳定性有很大的改进空间。
Jun, 2024
本研究解决了大型语言模型在数据不确定性下产生错误响应的问题,提出了一种新颖的多答案问答数据集MAQA以评估数据不确定性下的量化不确定性。此外,研究评估了五种不同模型的不确定性量化方法,发现熵和一致性方法在处理数据不确定性时表现良好,这为未来的不确定性量化研究指明了方向。
Aug, 2024
本研究针对大型语言模型(LLMs)推出的一个关键问题——预测中的不确定性估计,指出现有文献多依赖启发式方法,缺乏系统的分类。论文通过整合贝叶斯推断、信息理论和集成策略等理论视角,分类了各种不确定性估计方法,并探讨了将这些方法应用于LLMs时面临的挑战,同时还分析了它们在多种应用中的集成方式,旨在推动LLMs在现实场景中更可靠有效的不确定性估计方法的发展。
Oct, 2024