在先验概率转移下最小化量词方差

Jul, 2021

在先验概率转移下最小化量词方差

Minimising quantifier variance under prior probability shift

Dirk Tasche

TL;DR通过研究二元预测问题、先验概率转移及基础分类器的优化策略，本文确定其最大似然估计量的渐近方差，发现其与特征下类别标签的 Brier 得分相关，并点明了训练基础分类器的方法以最优化训练集和测试集的 Brier 得分。

Abstract

For the binary prevalence quantification problem under prior probability shift, we determine the asymptotic variance of the maximum likelihood estimator. We find that it is a function of the brier score for the r

binary prevalence quantification prior probability shift maximum likelihood estimator brier score base classifier training criteria

发现论文，激发创造

二进制量化和数据集变化：实验调查

在这项研究中，我们通过实验分析了当前的定量化算法在不同类型的数据集偏移下的行为，以识别现有方法的局限性，并为开发更广泛适用的方法铺平道路。我们通过提出细粒度的数据集偏移类型分类，建立受这些偏移类型影响的数据集生成协议，并在生成的数据集上测试现有的定量化方法。研究结果表明，许多已被发现对于先验概率偏移具有鲁棒性的定量化方法对于其他类型的数据集偏移可能不具备鲁棒性。此外，没有发现任何现有的定量化方法能够对我们在实验中模拟的所有数据集偏移类型具备足够的鲁棒性。

Oct, 2023

多元损失函数的文本量化器优化

本研究旨在探讨采用结构化预测的有监督学习模型解决量化问题，通过在 5500 个二进制高维数据集上实验，证明该方法比现有的量化方法更准确、更稳定、更高效。

Feb, 2015

分类器调整：变革在发生

提出了无界和有界的调整方法，以平均预测与类分布相等化，以最小化得分规则。实验结果表明在实际应用中，即使类分布仅近似已知，仍然可以根据移位量和类分布的精度减少损失。

Nov, 2021

协变量转移下的分类树剪枝

本研究讨论了在不同分布的训练数据中，选择一个平衡偏差和方差的适当子树的剪枝问题，并提出了首个在这种情况下进行最优剪枝的高效程序。

May, 2023

量化问题的在线优化方法

本研究提出了用于优化量化特定的性能参数的首批在线随机算法，其对于多变量优化的理论具有最优的收敛性，并通过实验验证，相对于现有的算法，能够更好地对性能参数进行优化。

May, 2016

通过分位数实现的受限分类和排名

本文提出了一种基于约束学习的新框架，可以通过在训练数据的子集上预测正 / 负例率来解决二分类器中的类不平衡问题，并避免了复杂的约束优化问题。该方法与模型无关且仅支出少量计算代价。在各种基准测试上的实验显示了与现有基准相比具有具有竞争性的性能。

Feb, 2018

先验转移下的分布鲁棒事后分类器

训练模型以适应由类先验或群组先验的分布变化引起的偏移问题并不容易，我们提出一种极其轻量级的事后方法，通过在验证集上求解约束优化问题并应用于模型，从而在测试时尽量减小选定目标分布周围的分布鲁棒性损失，并带有可证明的保证和实证的结果证明，表明我们的方法非常适用于分布鲁棒的事后分类器。

Sep, 2023

利用不确定性估计来提高分类器性能

模型得分和不确定性对决策边界的选择有关，该研究提供了理论分析和经验证据来证明模型得分估计偏差依赖于不确定性和得分本身，通过动态规划和保序回归算法提出的方案在三个真实数据集上比传统的只使用模型得分方法，在高精确度边界下获得了 25％-40％的召回率提升，凸显了利用不确定性的好处。

Nov, 2023

利用损失针来估计条件分位数

本研究通过建立不等式来描述近似的 pinball 风险最小化器与相应条件分位数之间的接近程度，再利用这些不等式建立了所谓的方差界，并利用两种类型的不等式来证明使用 pinball 损失函数的支持向量机的 Oracle 不等式，从而实现了最小 - 最大下限对某些标准规定的条件分位数的正则性假设。

Feb, 2011

超越 Pinball Loss：分位数方法用于校准不确定性量化

本文提出了新的分位数方法，可以适用于任何回归模型，并允许在校准和锐度之间进行权衡，优化中心区间的校准度，并产生更准确的条件分位数。

Nov, 2020