使用校准器提高机器阅读理解的鲁棒性

Feb, 2022

使用校准器提高机器阅读理解的鲁棒性

Using calibrator to improve robustness in Machine Reading Comprehension

Jing Jin, Houfeng Wang

TL;DR本文提出一种 MRC 模型后处理方法，依赖于 XGBoost 模型的校准器，结合手动特征和表示学习特征来改善模型的鲁棒性和性能表现，实验结果表明在针对敌对数据的情况下，模型的性能有超过 10% 的提升，同时也提升了原始和泛化数据集的性能。

Abstract

machine reading comprehension(mrc) has achieved a remarkable result since some powerful models, such as bert, are proposed. However, these

machine reading comprehension mrc bert adversarial input perturbation xgboost

发现论文，激发创造

了解问题更多：在问答中提高校准度

研究了问题回答中的校准问题，通过利用输入示例信息和数据增强，提高了在阅读理解基准测试中校准准确性 5-10％，并在开放检索设置中呈现了第一次的校准研究，比较了基于检索的跨度预测模型和答案生成模型的校准精度

Jun, 2021

一种自增强的校准排名框架

基于自我增强框架的标定排序 (Calibrated Ranking) 系统解决了实际应用中现存的两个关键限制：聚合策略和概率预测上的全局权衡。

Jun, 2024

利用对抗攻击揭示机器阅读理解模型中的统计偏差

本文研究了预训练语言模型在机器阅读理解任务中表现的问题，发现现有模型的性能存在统计偏差，提出了一种有效的攻击方法以及一种改进的训练方法来解决这个问题。

May, 2021

校准增强 - 森林

本文介绍了一种名为 Calibrated Boosting-Forest 的新技术，它是梯度提升机的一种集成，能够支持连续和二进制标签，并能够保持校准的后验概率，同时提供了调整超参数的替代方案，并且在基于配体的虚拟筛选方面取得了优异的表现。

Oct, 2017

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

基于解释的反事实重训练（XCR）：黑盒模型校准方法

本文提出了一种新的基于解释的反事实训练方法，即 eXplanation-based Counterfactual Retraining (XCR)，通过提取特征重要性来优化黑盒模型，解决了解释性人工智能的 Out-of-Distribution 问题和社会不协调问题，并在流行的图像数据集和数据损坏基准数据集中进行了实证研究，证明其有效性。

Jun, 2022

信任语言模型在教育中的应用

我们提出使用基于注意机制的特征，将 XGBoost 模型应用于 BERT，以输出更正概率，从而避免误导学生。我们的假设是注意力流中包含的不确定性水平与模型回答的质量相关。

Aug, 2023

重新审视校准：问答的案例

该研究旨在提出一种更好的置信度校准指标 —MacroCE，该指标能更好地捕捉模型给出正确预测时高信心和给出错误预测时低信心的情况，并针对开放领域问答的实际应用，提出了新的校准方法 ConsCal，该方法不仅考虑模型的最终预测，还考虑了多个模型检查点的一致性预测，提供了一种全新的校准视角、新的指标以及根据指标提出了更加有效的校准方法。

May, 2022

大规模机器阅读系统的校准

本文探讨机器学习系统的置信度校准问题，特别是针对开放领域的阅读系统。作者提出了针对这种复杂模型的校准技术，并通过实验表明该方法有效，并可以在面对无法回答或未训练数据的问题时提高系统的准确性。

Mar, 2022

预训练转换器的校准

通过对 BERT 和 RoBERTa 在自然语言推理、释义检测和常识推理三方面的实验，本研究发现预训练模型在领域内使用时具有校准性，而且与基准相比，在领域外的校准误差可以低至 3.5 倍；降温和标签平滑等方法可以进一步减少领域内的校准误差和校准领域外的计算后验概率。

Mar, 2020