神经语义分析的置信度建模
研究了三种模型族的六种语义分析模型在两个英文语义分析数据集上的校准特征。基于三个模型的置信分数,提出并发布了两个数据集的新挑战分割。通过模拟注释器交互实验,证明了使用模型置信度可以帮助平衡专注任务的语义分析模型在可用性和安全性之间的权衡。提出了一个平衡了可用性和安全性的 DidYouMean 系统,并呼吁将校准包括在语义分析系统的评估中,并发布了一个计算校准度量的库。
Nov, 2022
本文探讨如何使用语音识别器的置信度得分来评估转录质量,提出了一种名为信心估计模块(CEM)的轻量化且有效的方法来解决端到端模型的过度置信问题,并发现 CEM 能潜在地改善半监督学习等下游任务。
Oct, 2020
通过为各种标记分配不同的权重,使用从基础语言模型中产生的注意力值来增强预测的序列概率,我们提出了上下文化的序列可能性(CSL)这一新的评分方法。在几个问答数据集和各种语言模型中,CSL 在预测生成质量方面显示出明显更高的可靠性。
Jun, 2024
本论文介绍了一个在神经机器翻译中实现置信度估计的方法,通过让 NMT 模型向用户请求 “提示” 来确定置信度,进一步提出了利用置信度的标签平滑方法。实验结果表明,在真实世界的嘈杂和跨领域数据的情况下,该方法可以准确评估潜在的风险。
Mar, 2022
本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉,以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明,搜索功能表现出色,但模型往往在假设空间中分散了太多的概率质量。此外,我们还提出了评估模型校准的工具,并展示了如何轻松解决当前模型的一些缺陷。
Feb, 2018
本论文提出了新方法来研究自然语言处理(NLP)任务中表征模型和数据不确定性的好处,通过在卷积和循环神经网络模型上的实证实验,展示了明确建模不确定性不仅有利于测量输出置信水平,而且对于提升各种 NLP 任务中的模型表现也是有用的。
Nov, 2018
本文提出了一种基于神经网络中数据嵌入的简单可扩展的可靠置信度评分方法,通过距离损失或对抗训练对得到的嵌入进行处理,比传统置信度评分在分类错误预测、加权分类器集成以及新颖性检测中表现更加优异。
Sep, 2017
研究在从低资源语言中采样的数据集上训练模型的情况下,通过多种方法评估和分析神经分类器的预测置信度,发现尽管使用预训练模型和集成模型可以获得最佳结果,但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析,发现模型的总不确定性在很大程度上受到数据不确定性的影响,并提供了开源的软件包。
Oct, 2022