关键词calibration performance
搜索结果 - 8
- 期望校准误差的信息论泛化分析
本文首次全面分析了两种常见的分箱策略中的估计偏差,建立了偏差的上界以实现改进的收敛速率,并给出了最小化估计偏差的最佳箱数。此外,使用信息理论方法扩展了我们的偏差分析到广义化误差分析,得出了上界,使得我们能够数值评估未知数据的 ECE 多小。 - 通过提高预测正确性意识来优化校准
模型校准的新后续校准目标函数通过使用样本的转换版本来减少模型对错误预测样本的置信度并增加对正确预测样本的置信度,从而与现有技术在校准性能上达到相当竞争水平。
- 通过引发忠实度来校准大型语言模型的置信度
通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在 4 个 MCQA 数据集上对 6 个 RLHF-LM 进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标 IPR - 不要相信你所信任:半监督学习中的误校准
本文通过实证研究表明,基于伪标签的半监督学习方法存在显著的误校准问题。为了解决这个问题,本文提出了一个简单的惩罚项,通过保持未标记样本的预测结果的对数距离较小,防止网络预测过于自信。在多个半监督学习图像分类评估中,全面的实验结果表明,所提出 - AAAI基于样式和内容信息的一致性引导温度调整在领域外校准中的应用
在面对领域转移时,传统的神经网络鲁棒性研究主要关注提高模型准确性,而忽视了可靠的人工智能系统对校准性能的需求。本文提出了一种新的温度调节策略,基于样本一致性在风格和内容上的考量来提高多领域环境下的校准性能,实验证明在各种数据集上,我们的策略 - 灵活的变分信息瓶颈:通过单次训练实现多样压缩
本研究提出了一种创新的分类任务框架,称为 Flexible Variational Information Bottleneck (FVIB),通过单一、高效的训练可以获取在所有 $eta$ 值上的最优模型,并且在校准性能方面优于其他信息 - 网络校准的置信度和确定性的多类别对齐
我们提出了一种基于多类对齐预测均值置信度和预测确定度(MACC)的新的训练时校准方法,通过鼓励模型在预 softmax 分布中提供低(或高)扩散,从而达到了领域内和领域外预测的最先进校准性能。
- EMNLP校准相遇解释:一种简单有效的模型置信度估计方法
本文提出 CME 方法,结合模型解释来降低非归纳属性的模型信心度,进而提高预测的后验概率校准性能。在六个数据集上的实验表明,该方法提高了所有设置下的校准性能,并在温度缩放的情况下进一步降低了预期校准误差。