信任语言模型在教育中的应用
本文证明了 GPT-3 模型可以学习在自然语言中表达关于自己答案的不确定性,并且能够在分布转移下保持中度校准,同时提供了证据表明 GPT-3 的校准能力依赖于与其答案的认识不确定性相关的预训练潜在表示。
May, 2022
在高风险应用中使用大型语言模型(LLMs)时,我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的,然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制,并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。
Jun, 2024
大型语言模型为了赢得人类的信任,需要具备良好的校准能力,准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响,发现默认解释会导致用户过高估计模型的信心和准确性,而更准确反映模型内部可信度的解释能够对用户感知产生显著影响,增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要,特别是需要理解人工智能生成信息可靠性的场景。
Jan, 2024
我们提出了一种自动化的大语言模型(LLM)转换方法,可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关,计算效率高,不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型,即尽可能回答问题同时保持给定的准确性,在必要时放弃提供预测。作为我们结果的一部分,我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明,使用我们方法提供的不确定性估计有选择性地回答问题,可以显著提高准确性,相比直接使用模型概率。
Nov, 2023
评估语言模型预测的可靠性和置信度以及解决其与 AI 安全需求的关系是一项重要研究领域,本文综述了语言模型置信度估计和校准的方法、技术和挑战,并提出了未来研究的方向。
Nov, 2023
本文研究从校准的角度考察自然语言模型 (T5、BART、GPT-2) 的知识储备,找到可靠性评估,提高其置信度与正确概率的相关性的方法。实验数据表明,校准可以让模型的表现得到提高。
Dec, 2020
通过对开放式新闻标题生成任务中的人类研究和模型评估,我们分析了解释的表达方式和存在对用户信任和模型性能的影响。整体而言,我们提供了证据表明,在用户有机会比较不同的回答时,模型回答中添加解释以证明其推理能显著增加用户对模型的自我报告信任。对这些解释的位置和忠实度也是重要因素。然而,当用户独立地看到回答时,这些增益消失,这表明人类在独立显示时平等地信任所有模型回答,包括欺骗性的回答。我们的发现督促未来的研究更深入地探讨人机合作系统中信任的微妙评估。
Jun, 2024
AI 与人类交互时,自然语言作为默示接口,需要全面地传达语言模型关于回复的不确定性。研究发现,现有的语言模型在回答问题时无法表达不确定性,导致高错误率。人类在实验中过分依赖于语言模型生成的回复,而且存在对不确定性回复的偏见。因此,该研究提出设计建议和缓解策略,以应对人类与语言模型互动中的新一套安全危害。
Jan, 2024
利用黑盒或查询访问大型语言模型,通过工程化新特征并训练一个可解释的逻辑回归模型,我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明,我们的简单框架在 TriviaQA、SQuAD、CoQA 和自然提问等基准数据集上,在估算 flan-ul2、llama-13b 和 mistral-7b 的置信度时,不仅稳定地优于现有的黑盒置信度估算方法,有时甚至在 AUROC 上提高超过 10%。此外,我们的可解释方法揭示了预测置信度的特征,使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。
Jun, 2024
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性,并有助于评估 LLMs 的风险和提高对模型可信度的认识。
May, 2024