缺失非随机样本选择偏差下的鲁棒分类器
本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据,该方法在处理不同类型的丢失机制时具有稳健性和计算效率,并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。
Dec, 2018
使用数据驱动方法生成合适的预测特征集,提出了一种用于处理 MNAR 样本选择偏差的新型框架 Heckman-FA,实验证明其在实际数据集上能产生具有鲁棒性的回归模型。
Sep, 2023
本文研究了具有缺失非随机性的矩阵补全问题,提出了一种新的缺失概率估计方法,通过观察缺失数据的核范数结构,将缺失数据的概率转化为矩阵补全问题。该方法能够显著降低标准矩阵补全算法在缺失数据情况下预测结果的偏差,实验表明其效果好于传统方法。
Oct, 2019
在 MNAR 场景中,通过基于类别转换跟踪的伪校正引导(PRG),利用马尔可夫随机游走建模的动态创建图来获取类别级的引导信息,从而提高 MNAR 中的伪标签质量并优化模型的性能。
Aug, 2023
通过研究分布偏移现象,揭示在非参数分类的情况下,算法无法超越欠采样算法的性能极限,除非训练和测试数据分布高度重叠或算法利用有关分布偏移的附加结构,在标签移位的情况下,有最优的欠采样算法,而在群组协变量移位的情况下,当群组分布之间的重叠较小时,有最优的欠采样算法。
May, 2022
本文旨在通过考虑在测试期间输入特征的分布发生偏移并表现出低相关性来评估现有的鲁棒特征学习方法和正则化方法的效果,比较它们与设计用于捕捉训练集中高相关特征的基线方法的差异,并在设计的 C-MNIST 数据集上进行了验证。
Oct, 2019
本文基于因果关系假设,将因果技术纳入预测建模中,提出一种新的因果正则化逻辑回归(Causally Regularized Logistic Regression,CRLR)算法,以共同优化全局混杂因素平衡和加权逻辑回归,以解决对假设的无知选择偏差对实际应用中的稳健模型学习的重要性问题。
Aug, 2017
数据分析中,常常遇到缺失非随机(MNAR)的问题,本文从新的视角重新考虑 MNAR 问题,提出了一种基于生成模型的联合概率分解方法,并成功应用于数据的插补和遗漏掩码的重建。实验证明,我们的方法在 MNAR 问题上超过了现有的基线模型,并且在均方根误差上取得了显著的提升(平均提高了 9.9% 到 18.8%),同时也得到了更好的掩码重建准确性,使得插补的过程更加可靠。
Aug, 2023
提出了一种基于样本选择的算法来进行公平和鲁棒性训练,通过解决组合优化问题来实现样本无偏选择,并通过贪心算法解决了 NP 难问题,实验结果表明该算法在合成和基准真实数据集上具有优越的公平和鲁棒性。
Oct, 2021