May, 2024

大型语言模型的不确定表达对用户依赖和信任的影响研究

TL;DR广泛应用的大型语言模型(LLM)能够生成具有说服力但不正确的结果,存在误导用户的风险。为减少过度依赖,有呼吁要求 LLM 向最终用户传达其不确定性。然而,有关用户如何感知和行动 LLM 的不确定表达的实证研究很少。通过大规模的、预先注册的人体实验(N=404),我们探索了这个问题,参与者回答医学问题,带或不带来自一个虚构的 LLM 增强搜索引擎的回复。通过行为和自我报告的测量,我们研究了不同的自然语言不确定表达方式对参与者信赖、信任和任务整体表现的影响。我们发现第一人称表达(如 “我不确定,但是...”)降低了参与者对系统的信心和同意系统答案的倾向,同时提高了参与者的准确性。初步分析表明,这种增加可以归因于对错误答案的减少(但并非完全消除)的过度依赖。虽然我们观察到了不确定性从一般角度表达的类似效果(如 “不清楚,但是...”),但这些效果较弱且不具有统计学意义。我们的发现表明,使用自然语言的不确定表达可能是减少对 LLM 过度依赖的有效方法,但使用的确切语言很重要。这凸显了在部署大规模 LLM 之前进行用户测试的重要性。