Nov, 2022

校准解释:语义解析中的置信度估计

TL;DR研究了三种模型族的六种语义分析模型在两个英文语义分析数据集上的校准特征。基于三个模型的置信分数,提出并发布了两个数据集的新挑战分割。通过模拟注释器交互实验,证明了使用模型置信度可以帮助平衡专注任务的语义分析模型在可用性和安全性之间的权衡。提出了一个平衡了可用性和安全性的 DidYouMean 系统,并呼吁将校准包括在语义分析系统的评估中,并发布了一个计算校准度量的库。