羊驼明白 GPT 无法显示的东西:置信度估计的代理模型
利用黑盒或查询访问大型语言模型,通过工程化新特征并训练一个可解释的逻辑回归模型,我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明,我们的简单框架在 TriviaQA、SQuAD、CoQA 和自然提问等基准数据集上,在估算 flan-ul2、llama-13b 和 mistral-7b 的置信度时,不仅稳定地优于现有的黑盒置信度估算方法,有时甚至在 AUROC 上提高超过 10%。此外,我们的可解释方法揭示了预测置信度的特征,使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。
Jun, 2024
评估测量大型语言模型(LLMs)在复杂医学任务中提供诊断建议时的置信度的方法,结果发现 SC Agreement Frequency 是测量 GPT4 置信度最有用的方法。
Nov, 2023
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性,并有助于评估 LLMs 的风险和提高对模型可信度的认识。
May, 2024
该论文评估了语言和视觉 - 语言模型的可靠性,并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明,语言和视觉 - 语言模型都存在较高的校准误差,并且大部分时间都表现出过度自信,说明其对不确定性估计的能力较弱。此外,研究还发展了回归任务的提示方法,并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。
May, 2024
在高风险应用中使用大型语言模型(LLMs)时,我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的,然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制,并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。
Jun, 2024
用统计的方法对 GPT-4 等大型语言模型进行估测不确定性的研究发现,虽然 GPT-4 在一些英文词组中与人类的估测结果接近,但在涉及到性别角色和中文语境时存在差异,证明人类与大型语言模型的估测结果尚有较大难以弥合的差距。
May, 2024
大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧,本文通过引入多语言置信度估计 (MlingConf) 对大语言模型进行全面调查,包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出,实验结果表明该跨语言置信度估计技术能显著提高置信度估计。
Feb, 2024
大型语言模型 (LLMs),包括 ChatGPT 和 LLaMA,在以自信的口吻生成虚构答案方面容易出错。本文通过构建来自知识库的新评估数据集,评估了 Mistral 和 LLaMA 给出的答案的置信度分数,并展示它们倾向于过于自信。我们还发现它们在一些答案上比在其他答案上更为自信,例如取决于查询中的人的国籍。为了解决这个问题,我们提出了一种重新确定置信度的方法,取消了校准与分组损失。在重新确定置信度的过程中,语言模型表明其响应的准确性与其置信度的对齐有所改善。
Feb, 2024
本文提出了一种基于贝叶斯代理模型的机器文本检测方法,能够有效提高查询效率,并在低查询预算下实现更好的性能,相比于 DetectGPT,查询次数减少了最多 2 倍,AUROC 提高了 3.7%。
May, 2023
针对大型语言模型(LLM),特别是黑盒模型的应用,评估输出可信度的置信度估计是关键。现有的 LLM 置信度估计通常因 LLM 对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制,即它们仅考虑 LLM 生成的一个答案的置信度。为了解决这个限制,我们提出了一种新的范式,全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式,我们引入了一个两步框架,首先指导 LLM 反思并提供每个答案的理由,然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合,实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。
Mar, 2024