概率评分规则的对比
基于最大似然估计(MLE)的语言生成是文本生成的基本方法之一。本文提出了一种简单的策略,用于适应语言生成中的评分规则,并使用两种经典的严格适当评分规则 ——Brier 得分和 Spherical 得分进行训练,从而显著提高了模型的生成能力。
May, 2024
本篇论文研究了四种主要的适用于生存分析中的严格得分规则推广,并且证明了这些扩展在离散化条件下是适当的,并通过真实数据集比较了这些扩展得分规则的估计性能,发现对数分值和布赖尔分值的扩展效果最好。
May, 2023
本文探讨了如何通过得分规则衡量概率预测方案的性能,包括在二元情况下的 Brier 得分和有限值目标的预测,分析了分辨率和可靠性对得分的积极影响以及与预测质量相关的概念。
Jun, 2008
区分预测不确定性的来源对于在各个领域中应用预测模型至关重要。本研究提出了一个基于统计推理的通用框架,不仅可以创建新的不确定性度量,还可以澄清它们之间的关系。我们的方法利用统计风险区分了随机不确定性和认知不确定性,并利用适当的得分规则进行量化。为了使其在实践中可行,我们提出了将贝叶斯推理纳入该框架的思路,并讨论了该近似方法的性质。
Feb, 2024
本文通过对多元概率时间序列预测的妥善评估进行了系统的有限采样研究,并通过对合成基准的权力分析,确定了评分规则的 “可靠区域”,以确定其在识别预测误差方面的可靠性,并结合电力生产问题对其在实际任务中的通用性进行了评估。
Apr, 2023
生存分析提供了关于各个领域中部分不完整的事件发生时间数据的关键洞察。它也是概率机器学习的一个重要示例。我们的提案以一种通用的方式利用了预测的概率特性,使用(适当的)评分规则而不是基于似然的优化来进行模型拟合过程。我们建立了不同的参数和非参数子框架,允许不同程度的灵活性。结合神经网络,它导致了一种计算高效和可扩展的优化程序,产生了最先进的预测性能。最后,我们展示了使用我们的框架,我们能够恢复各种参数模型,并证明在与基于似然方法相比时,优化同样有效。
Mar, 2024
提出了基于合适评分规则(proper scoring rules)的新的测量方法,用于量化机器学习中的系统不确定性和认知不确定性,建立了不同不确定性表示之间的联系,并引入了新的认知和系统不确定性度量。
Apr, 2024