零通胀作为缺失数据问题:基于代理方法的解决方案
这篇论文介绍了机器学习模型在零膨胀数据环境中的应用,展示了在家用电器分类和机场班车需求预测两个实际应用中,采用层次模型在预测性能和能效方面取得的优异结果。
Oct, 2023
本研究提出变量稀疏问题,并通过实验证明了零值归零处理方法在处理缺失数据时性能不佳,提出了一种名为 Sparsity Normalization 的技术,该技术直接解决了变量稀疏问题,并在多个基准数据集上得到了实验验证。
Jun, 2019
本文介绍了一种用于处理缺失数据的方法 ——Missing Indicator Method,该方法通过在特征矩阵中添加缺失模式指示变量来搭配数据的填充,能够提高模型性能,同时还针对高维数据可能出现的模型过拟合问题,提出了一种 SMIM 扩展方法,并在实际的临床数据任务中表明了方法的实用性。
Nov, 2022
本文提出了一种深度模型来解决计算可持续性中的物种分布问题,其中有大量的零填充数据,并且需要同时对数百个物种进行建模,该模型被称为 “零膨胀多目标回归问题”。通过将整个模型作为端到端的学习框架,我们提供了一种有效的学习算法,并在两个实际物种分布的数据集上展示了该模型比现有的最先进基线模型表现更好,其核心是将多响应变量的联合分布建模为多元 Probit 模型。
Oct, 2020
最近的基于文本的因果方法尝试通过将非结构化文本数据作为部分或不完全测量的混淆变量的代理来减轻混淆偏差。我们提出了一种新的因果推断方法,它使用两个零样本模型从预处理文本数据中推断出两个代理,并将这些代理应用于近端 g 公式中,从而解决了一个重要的未观测到的混淆变量的问题。我们证明了我们的基于文本的代理方法满足近端 g 公式所需的识别条件,而其他看似合理的提议则不满足。我们在合成和半合成环境中评估了我们的方法,并发现它产生了低偏差的估计。这种近端因果推断与零样本分类器的结合是新颖的(据我们所知),并扩展了可供实践者使用的文本特定的因果方法。
Jan, 2024
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
Feb, 2024
本文提出了一种针对无法消除或填补的不完整观测数据进行学习的模型,通过显式建模具有负值的非对称噪声,使得算法不会对具有不完整观测数据的标签进行偏差预测,同时显著提高了学习效率和准确性。
Apr, 2023
本研究探讨了通过辅助数据确定缺失数据条件概率的情况下,通过一般矩限制定义的参数的半参数效率界和有效估计。发现在两个样本是独立的情况下,条件概率不是辅助的。针对所有情况,提出了高效的半参数估计器,其中基于条件期望投影的估计器所需的正则性条件较小。
May, 2007
研究高维稀疏线性回归问题在存在噪声、缺失或相关的数据时的情况下,提出了基于投影梯度下降的估计器,并且证明其在多项式时间内收敛到所有全局最小值的近邻,并给出了在统计和计算两个方面的理论保证。
Sep, 2011
基于 Shapley 值的数据评估方法,在考虑样本对所有可能的训练子集的贡献时,量化每个个体样本的有用性。然而,这些方法面临价值膨胀的挑战 - 虽然具有负 Shapley 值的样本是有害的,但一些具有正值的样本也可能具有负面效果。为了解决这些问题,我们提出了 Calibrated KNN-Shapley (CKNN-Shapley),将零作为阈值进行校准,以通过减轻小型训练子集的负面影响,区分有害样本和有益样本。通过广泛的实验,我们展示了 CKNN-Shapley 在缓解数据评估膨胀、检测有害样本和评估数据质量方面的有效性。我们还将我们的方法扩展到非传统的分类设置,包括对存在标记错误的数据、流数据的在线学习以及标签注释的主动学习等多样实际场景。
May, 2024