自然语言处理中的不确定性: 来源、量化与应用
本论文提出了新方法来研究自然语言处理(NLP)任务中表征模型和数据不确定性的好处,通过在卷积和循环神经网络模型上的实证实验,展示了明确建模不确定性不仅有利于测量输出置信水平,而且对于提升各种NLP任务中的模型表现也是有用的。
Nov, 2018
研究在从低资源语言中采样的数据集上训练模型的情况下,通过多种方法评估和分析神经分类器的预测置信度,发现尽管使用预训练模型和集成模型可以获得最佳结果,但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析,发现模型的总不确定性在很大程度上受到数据不确定性的影响,并提供了开源的软件包。
Oct, 2022
这篇论文介绍了在自然语言理解(NLU)任务中使用随机重量平均-高斯(SWAG)进行贝叶斯不确定性建模的方法,并将其应用于标准的自然语言推理(NLI)任务中,证明该方法以预测准确度和与人类注释不一致性相关性等方面的有效性。我们认为,SWAG中的不确定性表示更好地反映了主观解释和人类语言理解中存在的自然变化。结果揭示了不确定性建模在NLU任务中的重要性,这是神经语言建模经常忽略的方面。
Apr, 2023
该研究探讨了基于黑盒LLMs的自然语言生成的不确定性计量,提出几个置信度/不确定度统计度量标准,并发现语义分散的平均值可以作为评估LLMs响应质量的可靠指标。
May, 2023
最近强大的语言模型为自然语言生成(NLG)提供了进步,使其不仅可以执行传统任务如摘要或翻译,还可以作为各种应用的自然语言接口。本文首先提出了表示不确定性所需的基本理论、框架和词汇,并从语言学的角度确定了NLG中主要的不确定性来源,并提出了一个比流行的整体/种类二分法更具信息量和忠实度的二维分类系统。最后,我们从理论转向应用,强调利用不确定性进行解码、可控生成、自我评估、选择性回答、主动学习等的令人兴奋的研究方向。
Jul, 2023
在这项研究中,我们尝试量化大型语言模型(LLM)解释的不确定性。为此,我们提出了两个新的度量标准——“口头化不确定性”和“探测不确定性”,用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计,而探测不确定性的估计与解释的忠实度相关,较低的不确定性对应于较高的忠实度。这项研究为量化LLM解释的不确定性带来了洞察,有助于更广泛地探讨基础模型的可靠性。
Nov, 2023
快速增长的大型语言模型和自然语言处理(NLP)应用对不确定性量化提出了关键需求,以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架,结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希望解决源于NLP系统缺乏不确定性量化的现有缺点。本文对条件预测技术、其保证以及NLP中的现有应用进行了全面调研,指出了未来研究的方向和面临的挑战。
May, 2024
本研究解决了自然语言处理模型预测可靠性不足的问题,并探讨了如何从语言、统计和神经角度量化和减少不确定性。通过实证研究和理论分析,我们提出了基于非可交换共形预测的新方法,用于自然语言生成过程中的采样校准,从而提高了模型的输出可靠性。
Oct, 2024
本研究重点解决大型语言模型(LLMs)中的不确定性估计不足的问题。提出了一种全面框架,旨在识别和理解不确定性的类型及来源,从而为准确量化这些不确定性开发针对性的方法奠定基础。研究结果显示,该框架能够显著提升对不确定性多样性的理解,促进LLMs在实际应用中的可靠性和普遍采用。
Oct, 2024