None of the Above”: 评估对话响应检索中的不确定性
本论文提出了新方法来研究自然语言处理(NLP)任务中表征模型和数据不确定性的好处,通过在卷积和循环神经网络模型上的实证实验,展示了明确建模不确定性不仅有利于测量输出置信水平,而且对于提升各种 NLP 任务中的模型表现也是有用的。
Nov, 2018
研究在从低资源语言中采样的数据集上训练模型的情况下,通过多种方法评估和分析神经分类器的预测置信度,发现尽管使用预训练模型和集成模型可以获得最佳结果,但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析,发现模型的总不确定性在很大程度上受到数据不确定性的影响,并提供了开源的软件包。
Oct, 2022
本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉,以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明,搜索功能表现出色,但模型往往在假设空间中分散了太多的概率质量。此外,我们还提出了评估模型校准的工具,并展示了如何轻松解决当前模型的一些缺陷。
Feb, 2018
利用贝叶斯决策理论的视角,本研究通过假设我们的效用是通过比较生成的回答和理论上的真实回答的相似度来衡量,从而解决了大语言模型生成自由形式回答时的不确定性量化问题。我们进一步从缺失数据的角度推导出一种表征为过量风险的认知不确定性衡量方法。所提出的方法可以应用于黑盒语言模型,并在问答与机器翻译任务上展示了如何从 GPT 和 Gemini 模型中提取具有广泛意义的不确定性估计并量化它们的校准度。
Jun, 2024
广泛应用的大型语言模型(LLM)能够生成具有说服力但不正确的结果,存在误导用户的风险。为减少过度依赖,有呼吁要求 LLM 向最终用户传达其不确定性。然而,有关用户如何感知和行动 LLM 的不确定表达的实证研究很少。通过大规模的、预先注册的人体实验(N=404),我们探索了这个问题,参与者回答医学问题,带或不带来自一个虚构的 LLM 增强搜索引擎的回复。通过行为和自我报告的测量,我们研究了不同的自然语言不确定表达方式对参与者信赖、信任和任务整体表现的影响。我们发现第一人称表达(如 “我不确定,但是...”)降低了参与者对系统的信心和同意系统答案的倾向,同时提高了参与者的准确性。初步分析表明,这种增加可以归因于对错误答案的减少(但并非完全消除)的过度依赖。虽然我们观察到了不确定性从一般角度表达的类似效果(如 “不清楚,但是...”),但这些效果较弱且不具有统计学意义。我们的发现表明,使用自然语言的不确定表达可能是减少对 LLM 过度依赖的有效方法,但使用的确切语言很重要。这凸显了在部署大规模 LLM 之前进行用户测试的重要性。
May, 2024
开发了一种名为 “Rank-Calibration” 的新颖实用框架,用于评估语言模型的不确定性和置信度,通过量化与生成质量的关系偏差的方式,消除了二进制阈值化的需求,并在实证验证中展示了方法的广泛适用性和细粒度可解释性。
Apr, 2024
本文提出了一种简单的 Monte Carlo Dropout 算法,可以显式地量化神经网络输出的不确定性,利用此种不确定性可以解释模型复杂现象、如情感识别,此外也可以用于辨别主观标记样本和数据偏差的问题。
Sep, 2019