研究了集成蒸馏作为一个通用框架,以产生良好校准的结构化预测模型,同时避免在推断时集成蒸馏的代价,本文对其在两个任务上进行了验证:命名实体识别和机器翻译。我们发现,在这两个任务中,集成蒸馏产生的模型保留了集成的性能和校准优势,而且只需要在测试时使用单个模型。
Oct, 2020
本文介绍了一种通过使用预测置信度和难度分数来校准模型的概率估计方法,并基于此方法进行了自然语言推理和重复检测任务的实验,结果表明我们的校准器在 NLI 和 DD 任务中分别提高了 15.81%和 6.19%的准确率。
Aug, 2020
本文研究了自然语言处理结构化预测任务中的攻击与防御。我们提出了一种使用来自同一结构化预测任务的多个参考模型的反馈的序列到序列模型来攻击结构化预测模型的新颖统一框架,并通过对抗训练进一步加强了受害模型的预测,使其更加鲁棒和准确。在依赖分析和词性标注中验证了该框架。
研究了三种模型族的六种语义分析模型在两个英文语义分析数据集上的校准特征。基于三个模型的置信分数,提出并发布了两个数据集的新挑战分割。通过模拟注释器交互实验,证明了使用模型置信度可以帮助平衡专注任务的语义分析模型在可用性和安全性之间的权衡。提出了一个平衡了可用性和安全性的 DidYouMean 系统,并呼吁将校准包括在语义分析系统的评估中,并发布了一个计算校准度量的库。
Nov, 2022
本文主要讲述了自然语言处理中,对于语言结构的概率分布应当被直接评估,NLP 不确定性不只是管道组件,还应被投影到探索性数据分析中,我们提出了一种分析校准的方法,并将其应用于比较了几个常用模型的误校准情况; 此外,我们还贡献了一种共参采样算法,旨在创建政治事件抽取任务的置信区间。
Aug, 2015
本文探讨机器学习系统的置信度校准问题,特别是针对开放领域的阅读系统。作者提出了针对这种复杂模型的校准技术,并通过实验表明该方法有效,并可以在面对无法回答或未训练数据的问题时提高系统的准确性。
Mar, 2022
研究了问题回答中的校准问题,通过利用输入示例信息和数据增强,提高了在阅读理解基准测试中校准准确性 5-10%,并在开放检索设置中呈现了第一次的校准研究,比较了基于检索的跨度预测模型和答案生成模型的校准精度
Jun, 2021
本文提出了一种新的评估指标,称为 “field-level calibration error”,用于衡量决策者关注的敏感输入领域中预测偏差,提出了一种名为神经校准的后续校准方法,使用验证集中的领域感知信息进行校准,并通过实验证明其对常见度量(如负对数似然、布里尔分数和 AUC)以及所提出的 “field-level calibration error” 指标的校准性能得到了显著提高。
May, 2019
利用归纳 Venn--Abers 预测器(IVAP)校准二元标签对应的输出标记的概率,我们的实验结果表明 IVAP 方法在各种标签标记选择下始终优于常用的温度缩放方法,能够产生良好校准的概率并保持高的预测质量。
Jul, 2024
本文提出了在少量假设条件下构建多个感知 - ABERS 预测器 (IVAP) 的方法,该方法基于预训练的 Transformers 模型,保证了其预测是良好校准的。我们在多个自然语言理解任务上测试了它们的性能,并展示了这些预测器的预测结果可以在 [0,1] 区间内均匀分布,同时仍保持原模型的预测准确性。
May, 2022