研究了问题回答中的校准问题,通过利用输入示例信息和数据增强,提高了在阅读理解基准测试中校准准确性 5-10%,并在开放检索设置中呈现了第一次的校准研究,比较了基于检索的跨度预测模型和答案生成模型的校准精度
Jun, 2021
基于自我增强框架的标定排序 (Calibrated Ranking) 系统解决了实际应用中现存的两个关键限制:聚合策略和概率预测上的全局权衡。
Jun, 2024
本文研究了预训练语言模型在机器阅读理解任务中表现的问题,发现现有模型的性能存在统计偏差,提出了一种有效的攻击方法以及一种改进的训练方法来解决这个问题。
May, 2021
本文介绍了一种名为 Calibrated Boosting-Forest 的新技术,它是梯度提升机的一种集成,能够支持连续和二进制标签,并能够保持校准的后验概率,同时提供了调整超参数的替代方案,并且在基于配体的虚拟筛选方面取得了优异的表现。
Oct, 2017
本文提出了一个新的基准数据集 AdvRACE,用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性,通过提供不同类型的对抗攻击测试,包括基于新的分散干扰的抽取和生成攻击,并表明现有的最先进模型都非常容易受到这些攻击的影响。
Apr, 2020
本文提出了一种新的基于解释的反事实训练方法,即 eXplanation-based Counterfactual Retraining (XCR),通过提取特征重要性来优化黑盒模型,解决了解释性人工智能的 Out-of-Distribution 问题和社会不协调问题,并在流行的图像数据集和数据损坏基准数据集中进行了实证研究,证明其有效性。
Jun, 2022
我们提出使用基于注意机制的特征,将 XGBoost 模型应用于 BERT,以输出更正概率,从而避免误导学生。我们的假设是注意力流中包含的不确定性水平与模型回答的质量相关。
Aug, 2023
该研究旨在提出一种更好的置信度校准指标 —MacroCE,该指标能更好地捕捉模型给出正确预测时高信心和给出错误预测时低信心的情况,并针对开放领域问答的实际应用,提出了新的校准方法 ConsCal,该方法不仅考虑模型的最终预测,还考虑了多个模型检查点的一致性预测,提供了一种全新的校准视角、新的指标以及根据指标提出了更加有效的校准方法。
May, 2022
本文探讨机器学习系统的置信度校准问题,特别是针对开放领域的阅读系统。作者提出了针对这种复杂模型的校准技术,并通过实验表明该方法有效,并可以在面对无法回答或未训练数据的问题时提高系统的准确性。
Mar, 2022
通过对 BERT 和 RoBERTa 在自然语言推理、释义检测和常识推理三方面的实验,本研究发现预训练模型在领域内使用时具有校准性,而且与基准相比,在领域外的校准误差可以低至 3.5 倍;降温和标签平滑等方法可以进一步减少领域内的校准误差和校准领域外的计算后验概率。
Mar, 2020