神经语义分析的置信度建模

ACLMay, 2018

Confidence Modeling for Neural Semantic Parsing

Li Dong, Chris Quirk, Mirella Lapata

TL;DR本研究致力于神经语义分析器的置信度建模，设计了各种度量标准来估计置信分数和确定哪些输入因素会导致不确定的预测，结论表明我们的模型显著优于传统方法并且提高了模型解释的质量。

Abstract

In this work we focus on confidence modeling for neural semantic parsers which are built upon sequence-to-sequence models. We outline three major causes of →

confidence modeling neural semantic parsers uncertainty confidence scores model interpretation

发现论文，激发创造

校准解释：语义解析中的置信度估计

研究了三种模型族的六种语义分析模型在两个英文语义分析数据集上的校准特征。基于三个模型的置信分数，提出并发布了两个数据集的新挑战分割。通过模拟注释器交互实验，证明了使用模型置信度可以帮助平衡专注任务的语义分析模型在可用性和安全性之间的权衡。提出了一个平衡了可用性和安全性的 DidYouMean 系统，并呼吁将校准包括在语义分析系统的评估中，并发布了一个计算校准度量的库。

Nov, 2022

基于注意力机制的序列到序列模型语音识别置信度估计

本文探讨如何使用语音识别器的置信度得分来评估转录质量，提出了一种名为信心估计模块（CEM）的轻量化且有效的方法来解决端到端模型的过度置信问题，并发现 CEM 能潜在地改善半监督学习等下游任务。

Oct, 2020

上下文序列似然性：增强自然语言生成的置信分数

通过为各种标记分配不同的权重，使用从基础语言模型中产生的注意力值来增强预测的序列概率，我们提出了上下文化的序列可能性（CSL）这一新的评分方法。在几个问答数据集和各种语言模型中，CSL 在预测生成质量方面显示出明显更高的可靠性。

Jun, 2024

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

基于 Transformer 的神经机器翻译学习自信度

本论文介绍了一个在神经机器翻译中实现置信度估计的方法，通过让 NMT 模型向用户请求 “提示” 来确定置信度，进一步提出了利用置信度的标签平滑方法。实验结果表明，在真实世界的嘈杂和跨领域数据的情况下，该方法可以准确评估潜在的风险。

Mar, 2022

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

自然语言处理任务中的不确定性量化

本论文提出了新方法来研究自然语言处理（NLP）任务中表征模型和数据不确定性的好处，通过在卷积和循环神经网络模型上的实证实验，展示了明确建模不确定性不仅有利于测量输出置信水平，而且对于提升各种 NLP 任务中的模型表现也是有用的。

Nov, 2018

基于距离的神经网络分类器置信度

本文提出了一种基于神经网络中数据嵌入的简单可扩展的可靠置信度评分方法，通过距离损失或对抗训练对得到的嵌入进行处理，比传统置信度评分在分类错误预测、加权分类器集成以及新颖性检测中表现更加优异。

Sep, 2017

信任语义分割网络

该研究通过对不同模型进行实验，探讨了通过使用熵等简单度量方法来捕捉高召回率的错分情况，以分析语义分割中的失败案例和预测准确性的问题。

Jun, 2024

探索自然语言处理中的预测不确定性和校准：对方法和数据稀缺性影响的研究

研究在从低资源语言中采样的数据集上训练模型的情况下，通过多种方法评估和分析神经分类器的预测置信度，发现尽管使用预训练模型和集成模型可以获得最佳结果，但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析，发现模型的总不确定性在很大程度上受到数据不确定性的影响，并提供了开源的软件包。

Oct, 2022