区分预测不确定性的来源对于在各个领域中应用预测模型至关重要。本研究提出了一个基于统计推理的通用框架,不仅可以创建新的不确定性度量,还可以澄清它们之间的关系。我们的方法利用统计风险区分了随机不确定性和认知不确定性,并利用适当的得分规则进行量化。为了使其在实践中可行,我们提出了将贝叶斯推理纳入该框架的思路,并讨论了该近似方法的性质。
Feb, 2024
本文通过对多元概率时间序列预测的妥善评估进行了系统的有限采样研究,并通过对合成基准的权力分析,确定了评分规则的 “可靠区域”,以确定其在识别预测误差方面的可靠性,并结合电力生产问题对其在实际任务中的通用性进行了评估。
Apr, 2023
该文研究了几种评分规则,以便为概率预测模型评分或估计模型参数。研究发现,采用对数评分规则以在更不确定的情况下犯错为优势,采用球形评分规则则以在较低不确定性下犯错为优势,而其他评分规则则对两种选择都不关心。
Dec, 2011
本篇论文研究了四种主要的适用于生存分析中的严格得分规则推广,并且证明了这些扩展在离散化条件下是适当的,并通过真实数据集比较了这些扩展得分规则的估计性能,发现对数分值和布赖尔分值的扩展效果最好。
May, 2023
本研究提出了一种新的评估概率预测效果的方法,该方法利用损失函数以及马氏理论来评估预测结果与实际情况之间的关系。
Feb, 2012
提出了一种方法,可以一致且渐近无偏地估计所有适当的校准误差和改进术语,并验证了所提估计器的所述特性,并建议后续校准方法的选择应由所关注的特定校准误差决定。
Dec, 2023
本文介绍了 R 包中基于适当的评分规则进行概率模型比较评估的功能,涵盖了应用工作中的各种情况,并且提供气象和经济方面的案例研究和相关文献的指向。
Sep, 2017
提出了基于合适评分规则(proper scoring rules)的新的测量方法,用于量化机器学习中的系统不确定性和认知不确定性,建立了不同不确定性表示之间的联系,并引入了新的认知和系统不确定性度量。
Apr, 2024
本文概述了在统计推断中使用正确评分规则的一些应用,包括频率主义估计理论和使用不合适的先验贝叶斯模型选择。
Jan, 2014
本文提出了一种称为代理评分规则(Surrogate Scoring Rules, SSR)的方法,在私有概率信念的情况下,实现了激励兼容性和支配性诚实性,将之应用于多任务场景中,它们能够评估信息质量,即使没有绝对答案。作者通过真实数据的分析和经验验证,证明了这种方法的有效性。
Feb, 2018