零通胀作为缺失数据问题：基于代理方法的解决方案

Jun, 2024

零通胀作为缺失数据问题：基于代理方法的解决方案

Zero Inflation as a Missing Data Problem: a Proxy-based Approach

Trung Phung, Jaron J.R. Lee, Opeyemi Oladapo-Shittu, Eili Y. Klein, Ayse Pinar Gurses...

TL;DR将零膨胀数据视为一种普遍类型的缺失数据问题，通过观察到的缺失指示器来实现特定参数的识别和估计，未知关系时采用部分识别策略进行敏感性分析。

Abstract

A common type of zero-inflated data has certain true values incorrectly replaced by zeros due to data recording conventions (rare outcomes assumed to be absent) or details of data recording equipment (e.g. artificial zeros in gene expression data). Existing methods for →

zero-inflated data identifiability missing data problem sensitivity analysis central line-associated bloodstream infections (clabsis)

发现论文，激发创造

应对零膨胀数据：采用双重机器学习方法实现最优结果

这篇论文介绍了机器学习模型在零膨胀数据环境中的应用，展示了在家用电器分类和机场班车需求预测两个实际应用中，采用层次模型在预测性能和能效方面取得的优异结果。

Oct, 2023

神经网络训练中的稀疏偏差校正：为何不使用 0 填充？

本研究提出变量稀疏问题，并通过实验证明了零值归零处理方法在处理缺失数据时性能不佳，提出了一种名为 Sparsity Normalization 的技术，该技术直接解决了变量稀疏问题，并在多个基准数据集上得到了实验验证。

Jun, 2019

缺失指示器法：从低维到高维

本文介绍了一种用于处理缺失数据的方法 ——Missing Indicator Method，该方法通过在特征矩阵中添加缺失模式指示变量来搭配数据的填充，能够提高模型性能，同时还针对高维数据可能出现的模型过拟合问题，提出了一种 SMIM 扩展方法，并在实际的临床数据任务中表明了方法的实用性。

Nov, 2022

应用于多物种丰度估计的深度障碍网络零膨胀多目标回归

本文提出了一种深度模型来解决计算可持续性中的物种分布问题，其中有大量的零填充数据，并且需要同时对数百个物种进行建模，该模型被称为 “零膨胀多目标回归问题”。通过将整个模型作为端到端的学习框架，我们提供了一种有效的学习算法，并在两个实际物种分布的数据集上展示了该模型比现有的最先进基线模型表现更好，其核心是将多响应变量的联合分布建模为多元 Probit 模型。

Oct, 2020

基于文本数据的近端因果推断

最近的基于文本的因果方法尝试通过将非结构化文本数据作为部分或不完全测量的混淆变量的代理来减轻混淆偏差。我们提出了一种新的因果推断方法，它使用两个零样本模型从预处理文本数据中推断出两个代理，并将这些代理应用于近端 g 公式中，从而解决了一个重要的未观测到的混淆变量的问题。我们证明了我们的基于文本的代理方法满足近端 g 公式所需的识别条件，而其他看似合理的提议则不满足。我们在合成和半合成环境中评估了我们的方法，并发现它产生了低偏差的估计。这种近端因果推断与零样本分类器的结合是新颖的（据我们所知），并扩展了可供实践者使用的文本特定的因果方法。

Jan, 2024

统计学习中的确定性和近似确定性模型

本文提出了一种统一的方法，以验证数据插补对于学习准确模型是否必要，并在插补不必要的情况下返回准确模型。通过我们的算法，可以显著减少数据插补所需的时间和工作量，并且不会带来明显的计算负担。

Feb, 2024

含不完整观测数据的回归分析

本文提出了一种针对无法消除或填补的不完整观测数据进行学习的模型，通过显式建模具有负值的非对称噪声，使得算法不会对具有不完整观测数据的标签进行偏差预测，同时显著提高了学习效率和准确性。

Apr, 2023

带辅助数据的广义矩估计模型的半参数效率

本研究探讨了通过辅助数据确定缺失数据条件概率的情况下，通过一般矩限制定义的参数的半参数效率界和有效估计。发现在两个样本是独立的情况下，条件概率不是辅助的。针对所有情况，提出了高效的半参数估计器，其中基于条件期望投影的估计器所需的正则性条件较小。

May, 2007

带有噪声和缺失数据的高维回归：非凸性可证明保证

研究高维稀疏线性回归问题在存在噪声、缺失或相关的数据时的情况下，提出了基于投影梯度下降的估计器，并且证明其在多项式时间内收敛到所有全局最小值的近邻，并给出了在统计和计算两个方面的理论保证。

Sep, 2011

关于 KNN-Shapley 值的通胀

基于 Shapley 值的数据评估方法，在考虑样本对所有可能的训练子集的贡献时，量化每个个体样本的有用性。然而，这些方法面临价值膨胀的挑战 - 虽然具有负 Shapley 值的样本是有害的，但一些具有正值的样本也可能具有负面效果。为了解决这些问题，我们提出了 Calibrated KNN-Shapley (CKNN-Shapley)，将零作为阈值进行校准，以通过减轻小型训练子集的负面影响，区分有害样本和有益样本。通过广泛的实验，我们展示了 CKNN-Shapley 在缓解数据评估膨胀、检测有害样本和评估数据质量方面的有效性。我们还将我们的方法扩展到非传统的分类设置，包括对存在标记错误的数据、流数据的在线学习以及标签注释的主动学习等多样实际场景。

May, 2024