语义解析中的置信度权衡

Mar, 2023

Did You Mean...? Confidence-based Trade-offs in Semantic Parsing

Elias Stengel-Eskin, Benjamin Van Durme

TL;DR本文研究定制模型如何通过使用置信度得分，在任务导向的解析中权衡成本与标注者的负担，压缩不正确的低置信程序的执行数量，以优化可用性与安全性之间的权衡，并提出了 DidYouMean 系统来更好地平衡可用性与安全性。

Abstract

We illustrate how a calibrated model can help balance common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that well-calibrated confidence scores allow us to balanc

task-oriented parsing confidence scores annotator load usability safety

发现论文，激发创造

校准解释：语义解析中的置信度估计

研究了三种模型族的六种语义分析模型在两个英文语义分析数据集上的校准特征。基于三个模型的置信分数，提出并发布了两个数据集的新挑战分割。通过模拟注释器交互实验，证明了使用模型置信度可以帮助平衡专注任务的语义分析模型在可用性和安全性之间的权衡。提出了一个平衡了可用性和安全性的 DidYouMean 系统，并呼吁将校准包括在语义分析系统的评估中，并发布了一个计算校准度量的库。

Nov, 2022

神经语义分析的置信度建模

本研究致力于神经语义分析器的置信度建模，设计了各种度量标准来估计置信分数和确定哪些输入因素会导致不确定的预测，结论表明我们的模型显著优于传统方法并且提高了模型解释的质量。

May, 2018

人类对齐 AI 辅助决策的校准

本文研究二元分类器中的置信度值使用，发现对于决策者来说确定何时信任预测很困难，提出了置信度值与决策者自身置信度一致时决策最优且易于发现，提出了多重校准并验证其有效性在 AI 辅助决策场景中。

May, 2023

校准解释

本文研究了不确定性和可解释性之间的联系，特别是探讨了置信度和解释性之间的关系，发现模型的置信度与我们解释模型的能力有交互作用，并提出了一种简单的实践方法来改善解释结果：调整置信度以提高解释效果。

Jul, 2022

语义分割模型的校准：分析与算法

研究了语义分割校准的问题，提出了一种简单而有效的选择性缩放方法来校准模型，实验结果表明其在多个基准测试中具有卓越的性能。

Dec, 2022

基于激光雷达的语义分割中不确定性估计的校准

我们提出了一种测量语义分割模型对各个类别的置信度校准质量的度量标准，并使用该标准评估不平衡类别的不确定性估计方法的置信度校准情况。此外，我们还建议该方法可以自动发现标签问题，改善手工或自动注释数据集的质量。

Aug, 2023

重新审视校准：问答的案例

该研究旨在提出一种更好的置信度校准指标 —MacroCE，该指标能更好地捕捉模型给出正确预测时高信心和给出错误预测时低信心的情况，并针对开放领域问答的实际应用，提出了新的校准方法 ConsCal，该方法不仅考虑模型的最终预测，还考虑了多个模型检查点的一致性预测，提供了一种全新的校准视角、新的指标以及根据指标提出了更加有效的校准方法。

May, 2022

LLMs 的置信度评分多重校准

通过使用 “多校准” 技术，本文提出为大型语言模型生成可解释和可靠的置信度分数。通过在各种数据交叉组合上同时校准，可以显著提高校准和准确性。

Apr, 2024

通过询问进行校准：从人类反馈 Fine-Tune 的语言模型中获取校准置信度得分的策略

本研究旨在评估从经过强化学习加人工反馈的预先训练语言模型中提取置信度得分的可行方法，通过合理的提示策略和温度缩放，成功降低超过 50％的校准误差

May, 2023

使预训练语言模型既成为任务求解器又成为自我校准器

为解决现实场景下对训练样本的有效利用，提出了一种训练算法 LM-TOAST，可以在保持原任务性能的同时，有效利用训练数据使预训练语言模型具有合理的置信度估计。

Jul, 2023