- 分类中的重新校准的 PAC-Bayes 分析
通过 PAC Bayes 框架进行校准误差的泛化分析,并提出了一个基于该泛化理论的智能校准算法。数值实验表明,该算法提高了基于高斯过程的校准性能。
- 深度回归的不确定性量化指标
在部署机器人或其他物理系统上的深度神经网络时,可靠地量化预测不确定性以允许下游模块对其行为的安全性进行推理至关重要。本文研究了评估这种不确定性的度量标准,具体关注回归任务,并调查了 Sparsification Error 下面积 (AUS - ACL过度自信是关键:大型语言和视觉 - 语言模型中的口头不确定性评估
该论文评估了语言和视觉 - 语言模型的可靠性,并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明,语言和视觉 - 语言模型都存在较高的校准误差,并且大部分时间都表现出过度自信,说明其对不确定性估计的能力较弱。此外,研究还发展了 - 平均校准误差:图像分割中提高可靠性的可微损失
使用 mL1-ACE 作为辅助损失函数,改进像素级校准,提出数据集可靠性直方图概念,减少平均校准误差和最大校准误差并保持 87% 的 Dice 分数。
- 仅使用生成进行大型语言模型的校准
利用 APRICOT 方法,通过模型的文本输入和输出,设置置信度目标并训练附加模型,从而有效地进行大语言模型的置信度校准。该方法不仅概念简单,而且不需要访问目标模型的其他信息,不会干扰语言生成,并且在封闭型问答中以检测错误答案方面具有竞争性 - 新闻标题的定向情绪研究:探索不同层次的提示式规范化
利用各种提示设计,在新闻标题的有针对性情感分析中,调节 LLM 模型的性能。
- 适当校准误差的一致且渐近无偏估计
提出了一种方法,可以一致且渐近无偏地估计所有适当的校准误差和改进术语,并验证了所提估计器的所述特性,并建议后续校准方法的选择应由所关注的特定校准误差决定。
- 在没有标签的标签偏移下估计校准误差
在面对数据集转移时,模型校准在确保机器学习系统可靠性方面起到关键作用。本研究提出了一种基于标签转移的新型 CE 估计器,通过利用加权重要性重新调整标记源数据分布,实现了对转移目标分布的一致且渐进无偏的 CE 估计,实验结果表明该估计器的有效 - 超越分类:目标检测中校准的定义与基于密度的估计
该研究论文探讨了在深度神经网络中定义和估计检测校准误差的挑战,并提出了一种一致且可微的检测校准误差估计器,利用核密度估计,实验证明该估计器在保持相似检测性能的同时,对竞争的训练时和事后校准方法更为有效。
- 超越概率划分:使用语义感知分组标定神经网络
文章提出了一种更广义的标定误差度量定义,即划分校准误差(Partitioned Calibration Error - PCE),并探讨了如何对数据空间进行划分,以使得深度神经网络可以更准确地校准预测。作者提出了通过语义相关的划分函数来划分 - ENCE 和其他基于 MAD 的校准度量的属性
本研究针对机器学习中广泛采用的归一化校准误差(ENCE)统计量,研究其误差与所选数据分组数量的相关性,提出了同时可作为校准检验的解决方案。实验表明,标准差校准误差(ZVE)对离群值不敏感,相对于 ENCE 更为鲁棒。
- 使用模糊分箱进行校准误差估计
本文提出了一种模糊校准误差 (FCE) 度量方式,该方式利用模糊分箱法来计算校准误差,可以更好地在多类设置中估计校准误差和缓解模型置信度分数的偏斜对校准误差估计的影响。
- EMNLP使用预训练语言模型的不确定性量化:一项大规模经验分析
该论文研究了基于预训练语言模型的 NLP 任务中的预测流水线如何最小化校准误差,比较了不同选项的表现,并推荐使用 ELECTRA 作为 PLM 编码,尽可能使用更大的 PLM,使用温度调节作为不确定性度量,以及使用 Focal Loss 进 - 转移学习中的越界泛化测量
本研究探讨了如何测量和改善模型的鲁棒性,并提供了五个包括准确性、校准误差、对抗攻击、环境不变性和综合污染的数据集对深度学习网络进行了分析与比较,发现鲁棒性的提升与具体数据集相关,且关系更为复杂。
- ICLR如何评估分类器的校准性:在特定上下文可靠性定义下的分类器校准性评估
本文针对分类器标定的问题,提出以正确描述其应用背景为目的,开发更准确反映标定误差的更具表达力的度量标准;其中,基于期望标定误差的推广,提出了几种不同的度量标准,分别反映了针对不同的可靠性定义的标定误差;此外,基于这些不同的度量标准,作者对常 - 缓解校准误差估计中的偏差
研究 AI 系统在决策中的可靠性,提出了一种新的校准误差评估方法,并分析了常见神经结构的同类输出,提出基于等质量分组的估计器可以降低偏差,提出两种可靠的校准误差估算器,并观察到重新校准方法的有效性和模型渐进失真检测的提高。
- ACL句子分类任务上的后验校准训练
本文提出了一种名为 Posterior-Calibrated Training 的训练方法,直接优化目标,并最小化预测后验概率与经验后验概率的差异,从而在减小校准误差的同时提高任务性能。该方法对于任何类型的分类任务都能很好地适用。
- 经过验证的不确定性校准
本篇论文提出一种基于 Platti scaling 和 temperature scaling 的直方图分块校准法,用于计算模型校准误差,并使用气象学中的估算器来更加准确地估计校准误差。作者在多类别校准实验中将缔合法的校准误差降低了 35% - 使用结构化随机失活进行卷积神经网络置信度校准
通过集成学习,本文探讨使用结构化 dropout 方法以促进模型多样性和提高置信度校准。在三个数据集中对比了多种 dropout 技术的模型多样性和置信误差,并在贝叶斯主动学习案例中验证了结构化 dropout 方法的优势。