None of the Above”: 评估对话响应检索中的不确定性

ACLApr, 2020

None of the Above”: 评估对话响应检索中的不确定性

"None of the Above":Measure Uncertainty in Dialog Response Retrieval

Yulan Feng, Shikib Mehri, Maxine Eskenazi, Tiancheng Zhao

TL;DR本文讨论了揭示端到端对话任务中的不确定性的重要性，并在 Ubuntu 对话语料库上展示了关于不确定性分类的实验结果。我们展示了，不必为此特定目的重新训练模型，可以通过微不足道的计算捕获原始检索模型关于最佳预测的潜在置信度。

Abstract

This paper discusses the importance of uncovering uncertainty in end-to-end dialog tasks, and presents our experimental results on uncertainty

uncertainty end-to-end dialog tasks experimental results classification retrieval model

发现论文，激发创造

神经信念追踪中的不确定性度量及其对对话策略表现的影响

探究利用不同的不确定性度量方法，将其纳入到神经对话系统的信念追踪中，以提高对话策略性能和鲁棒性。

Sep, 2021

自然语言处理任务中的不确定性量化

本论文提出了新方法来研究自然语言处理（NLP）任务中表征模型和数据不确定性的好处，通过在卷积和循环神经网络模型上的实证实验，展示了明确建模不确定性不仅有利于测量输出置信水平，而且对于提升各种 NLP 任务中的模型表现也是有用的。

Nov, 2018

探索自然语言处理中的预测不确定性和校准：对方法和数据稀缺性影响的研究

研究在从低资源语言中采样的数据集上训练模型的情况下，通过多种方法评估和分析神经分类器的预测置信度，发现尽管使用预训练模型和集成模型可以获得最佳结果，但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析，发现模型的总不确定性在很大程度上受到数据不确定性的影响，并提供了开源的软件包。

Oct, 2022

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

自然语言生成中的主观不确定性量化和校准

利用贝叶斯决策理论的视角，本研究通过假设我们的效用是通过比较生成的回答和理论上的真实回答的相似度来衡量，从而解决了大语言模型生成自由形式回答时的不确定性量化问题。我们进一步从缺失数据的角度推导出一种表征为过量风险的认知不确定性衡量方法。所提出的方法可以应用于黑盒语言模型，并在问答与机器翻译任务上展示了如何从 GPT 和 Gemini 模型中提取具有广泛意义的不确定性估计并量化它们的校准度。

Jun, 2024

大型语言模型的不确定表达对用户依赖和信任的影响研究

广泛应用的大型语言模型（LLM）能够生成具有说服力但不正确的结果，存在误导用户的风险。为减少过度依赖，有呼吁要求 LLM 向最终用户传达其不确定性。然而，有关用户如何感知和行动 LLM 的不确定表达的实证研究很少。通过大规模的、预先注册的人体实验（N=404），我们探索了这个问题，参与者回答医学问题，带或不带来自一个虚构的 LLM 增强搜索引擎的回复。通过行为和自我报告的测量，我们研究了不同的自然语言不确定表达方式对参与者信赖、信任和任务整体表现的影响。我们发现第一人称表达（如 “我不确定，但是...”）降低了参与者对系统的信心和同意系统答案的倾向，同时提高了参与者的准确性。初步分析表明，这种增加可以归因于对错误答案的减少（但并非完全消除）的过度依赖。虽然我们观察到了不确定性从一般角度表达的类似效果（如 “不清楚，但是...”），但这些效果较弱且不具有统计学意义。我们的发现表明，使用自然语言的不确定表达可能是减少对 LLM 过度依赖的有效方法，但使用的确切语言很重要。这凸显了在部署大规模 LLM 之前进行用户测试的重要性。

May, 2024

并非所有相关分数均相等：深度检索模型的高效不确定性和校准建模

以贝叶斯框架为基础的检索模型不仅能够提高排名的准确性，还能提供可靠的不确定性信息来预测截断点并提高下游任务的效果。

May, 2021

语言模型中的不确定性：通过排名校准进行评估

开发了一种名为 “Rank-Calibration” 的新颖实用框架，用于评估语言模型的不确定性和置信度，通过量化与生成质量的关系偏差的方式，消除了二进制阈值化的需求，并在实证验证中展示了方法的广泛适用性和细粒度可解释性。

Apr, 2024

表征代理校准及消除标注员和数据偏差的不确定性来源

本文提出了一种简单的 Monte Carlo Dropout 算法，可以显式地量化神经网络输出的不确定性，利用此种不确定性可以解释模型复杂现象、如情感识别，此外也可以用于辨别主观标记样本和数据偏差的问题。

Sep, 2019