自然语言处理中的结构化输出预测器校准

ACLApr, 2020

自然语言处理中的结构化输出预测器校准

Calibrating Structured Output Predictors for Natural Language Processing

Abhyuday Jagannatha, Hong Yu

TL;DR本研究提出了一种用于神经网络模型的预测校准方案，特别是针对命名实体识别、词性标注和问题回答等应用，该方案可以提高模型预测结果的置信度和性能，在领域外测试场景中也表现出卓越的性能。

Abstract

We address the problem of calibrating prediction confidence for output entities of interest in natural language processing (NLP) applications. It is important that NLP applications such as named entity recognitio

calibration prediction confidence natural language processing structured prediction models neural network

发现论文，激发创造

结构化预测的集成蒸馏：校准、准确、快速 - 选择三项

研究了集成蒸馏作为一个通用框架，以产生良好校准的结构化预测模型，同时避免在推断时集成蒸馏的代价，本文对其在两个任务上进行了验证：命名实体识别和机器翻译。我们发现，在这两个任务中，集成蒸馏产生的模型保留了集成的性能和校准优势，而且只需要在测试时使用单个模型。

Oct, 2020

提高 NLP 系统的选择性预测能力

本文介绍了一种通过使用预测置信度和难度分数来校准模型的概率估计方法，并基于此方法进行了自然语言推理和重复检测任务的实验，结果表明我们的校准器在 NLI 和 DD 任务中分别提高了 15.81％和 6.19％的准确率。

Aug, 2020

结构化预测模型的对抗攻击和防御

本文研究了自然语言处理结构化预测任务中的攻击与防御。我们提出了一种使用来自同一结构化预测任务的多个参考模型的反馈的序列到序列模型来攻击结构化预测模型的新颖统一框架，并通过对抗训练进一步加强了受害模型的预测，使其更加鲁棒和准确。在依赖分析和词性标注中验证了该框架。

Oct, 2020

校准解释：语义解析中的置信度估计

研究了三种模型族的六种语义分析模型在两个英文语义分析数据集上的校准特征。基于三个模型的置信分数，提出并发布了两个数据集的新挑战分割。通过模拟注释器交互实验，证明了使用模型置信度可以帮助平衡专注任务的语义分析模型在可用性和安全性之间的权衡。提出了一个平衡了可用性和安全性的 DidYouMean 系统，并呼吁将校准包括在语义分析系统的评估中，并发布了一个计算校准度量的库。

Nov, 2022

自然語言處理模型後驗校準與探索性分析

本文主要讲述了自然语言处理中，对于语言结构的概率分布应当被直接评估，NLP 不确定性不只是管道组件，还应被投影到探索性数据分析中，我们提出了一种分析校准的方法，并将其应用于比较了几个常用模型的误校准情况；此外，我们还贡献了一种共参采样算法，旨在创建政治事件抽取任务的置信区间。

Aug, 2015

大规模机器阅读系统的校准

本文探讨机器学习系统的置信度校准问题，特别是针对开放领域的阅读系统。作者提出了针对这种复杂模型的校准技术，并通过实验表明该方法有效，并可以在面对无法回答或未训练数据的问题时提高系统的准确性。

Mar, 2022

了解问题更多：在问答中提高校准度

研究了问题回答中的校准问题，通过利用输入示例信息和数据增强，提高了在阅读理解基准测试中校准准确性 5-10％，并在开放检索设置中呈现了第一次的校准研究，比较了基于检索的跨度预测模型和答案生成模型的校准精度

Jun, 2021

Field-aware Calibration：可靠概率预测的简单有效方法

本文提出了一种新的评估指标，称为 “field-level calibration error”，用于衡量决策者关注的敏感输入领域中预测偏差，提出了一种名为神经校准的后续校准方法，使用验证集中的领域感知信息进行校准，并通过实验证明其对常见度量（如负对数似然、布里尔分数和 AUC）以及所提出的 “field-level calibration error” 指标的校准性能得到了显著提高。

May, 2019

用于二元问题回答的校准大型语言模型

利用归纳 Venn--Abers 预测器（IVAP）校准二元标签对应的输出标记的概率，我们的实验结果表明 IVAP 方法在各种标签标记选择下始终优于常用的温度缩放方法，能够产生良好校准的概率并保持高的预测质量。

Jul, 2024

使用 Venn-ABERS 预测器校准自然语言理解模型

本文提出了在少量假设条件下构建多个感知 - ABERS 预测器 (IVAP) 的方法，该方法基于预训练的 Transformers 模型，保证了其预测是良好校准的。我们在多个自然语言理解任务上测试了它们的性能，并展示了这些预测器的预测结果可以在 [0,1] 区间内均匀分布，同时仍保持原模型的预测准确性。

May, 2022