依赖不可靠之处：语言模型不愿表达不确定性的影响

Jan, 2024

依赖不可靠之处：语言模型不愿表达不确定性的影响

Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty

Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Maarten Sap

TL;DRAI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Abstract

As natural language becomes the default interface for human-AI interaction, there is a critical need for LMs to appropriately communicate uncertainties in downstream applications. In this work, we investigate how

natural language uncertainties lm-articulated uncertainties overconfidence safety harms

发现论文，激发创造

大型语言模型的不确定表达对用户依赖和信任的影响研究

广泛应用的大型语言模型（LLM）能够生成具有说服力但不正确的结果，存在误导用户的风险。为减少过度依赖，有呼吁要求 LLM 向最终用户传达其不确定性。然而，有关用户如何感知和行动 LLM 的不确定表达的实证研究很少。通过大规模的、预先注册的人体实验（N=404），我们探索了这个问题，参与者回答医学问题，带或不带来自一个虚构的 LLM 增强搜索引擎的回复。通过行为和自我报告的测量，我们研究了不同的自然语言不确定表达方式对参与者信赖、信任和任务整体表现的影响。我们发现第一人称表达（如 “我不确定，但是...”）降低了参与者对系统的信心和同意系统答案的倾向，同时提高了参与者的准确性。初步分析表明，这种增加可以归因于对错误答案的减少（但并非完全消除）的过度依赖。虽然我们观察到了不确定性从一般角度表达的类似效果（如 “不清楚，但是...”），但这些效果较弱且不具有统计学意义。我们的发现表明，使用自然语言的不确定表达可能是减少对 LLM 过度依赖的有效方法，但使用的确切语言很重要。这凸显了在部署大规模 LLM 之前进行用户测试的重要性。

May, 2024

驾驭灰色地带：语言模型中的过度自信和不确定表达

本文探究了语言模型在解释和生成不确定表达时的行为，并发现当模型以确定性的语言输出时，模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。

Feb, 2023

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

大型语言模型能否以准确的文字表达其内在不确定性？

大型语言模型通常无法准确表达其内在的不确定性，因此需要更好的对齐以提高其可信度。

May, 2024

大型语言模型中模型和人类置信度之间的校准差距

大型语言模型为了赢得人类的信任，需要具备良好的校准能力，准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响，发现默认解释会导致用户过高估计模型的信心和准确性，而更准确反映模型内部可信度的解释能够对用户感知产生显著影响，增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要，特别是需要理解人工智能生成信息可靠性的场景。

Jan, 2024

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

为什么您会提出这样的建议？人类对语言模型回答的信任

通过对开放式新闻标题生成任务中的人类研究和模型评估，我们分析了解释的表达方式和存在对用户信任和模型性能的影响。整体而言，我们提供了证据表明，在用户有机会比较不同的回答时，模型回答中添加解释以证明其推理能显著增加用户对模型的自我报告信任。对这些解释的位置和忠实度也是重要因素。然而，当用户独立地看到回答时，这些增益消失，这表明人类在独立显示时平等地信任所有模型回答，包括欺骗性的回答。我们的发现督促未来的研究更深入地探讨人机合作系统中信任的微妙评估。

Jun, 2024

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024