缺失非随机样本选择偏差下的鲁棒分类器

May, 2023

缺失非随机样本选择偏差下的鲁棒分类器

A Robust Classifier Under Missing-Not-At-Random Sample Selection Bias

Huy Mai, Wen Huang, Wei Du, Xintao Wu

TL;DR本篇论文提出了 BiasCorr 算法，解决了样本选择偏差中 MNAR 标签缺失的问题，该算法可以生成鲁棒的分类器，并可以超越目前在样本选择偏差领域的最佳算法。

Abstract

The shift between the training and testing distributions is commonly due to sample selection bias, a type of bias caused by non-random sampling of examples to be included in the training set. Although there are many approaches proposed to learn a classifier under →

sample selection bias missing-not-at-random labels logistic regression biascorr algorithm robust classifiers

发现论文，激发创造

缺失非随机数据的填补和低秩估计

本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据，该方法在处理不同类型的丢失机制时具有稳健性和计算效率，并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。

Dec, 2018

在 Heckman 选择模型中的预测特征分配

使用数据驱动方法生成合适的预测特征集，提出了一种用于处理 MNAR 样本选择偏差的新型框架 Heckman-FA，实验证明其在实际数据集上能产生具有鲁棒性的回归模型。

Sep, 2023

矩阵补全中缺失非随机性：在低核范数假设下估计缺失概率的有效性

本文研究了具有缺失非随机性的矩阵补全问题，提出了一种新的缺失概率估计方法，通过观察缺失数据的核范数结构，将缺失数据的概率转化为矩阵补全问题。该方法能够显著降低标准矩阵补全算法在缺失数据情况下预测结果的偏差，实验表明其效果好于传统方法。

Oct, 2019

面向半监督学习的非随机缺失标签

在 MNAR 场景中，通过基于类别转换跟踪的伪校正引导（PRG），利用马尔可夫随机游走建模的动态创建图来获取类别级的引导信息，从而提高 MNAR 中的伪标签质量并优化模型的性能。

Aug, 2023

非参数分类中欠采样是一种极小化最优鲁棒干预的方法

通过研究分布偏移现象，揭示在非参数分类的情况下，算法无法超越欠采样算法的性能极限，除非训练和测试数据分布高度重叠或算法利用有关分布偏移的附加结构，在标签移位的情况下，有最优的欠采样算法，而在群组协变量移位的情况下，当群组分布之间的重叠较小时，有最优的欠采样算法。

May, 2022

利用高相关特征进行预测

本文旨在通过考虑在测试期间输入特征的分布发生偏移并表现出低相关性来评估现有的鲁棒特征学习方法和正则化方法的效果，比较它们与设计用于捕捉训练集中高相关特征的基线方法的差异，并在设计的 C-MNIST 数据集上进行了验证。

Oct, 2019

具有因果正则化的学习：对数据选择偏差的不可知性处理

本文基于因果关系假设，将因果技术纳入预测建模中，提出一种新的因果正则化逻辑回归（Causally Regularized Logistic Regression，CRLR）算法，以共同优化全局混杂因素平衡和加权逻辑回归，以解决对假设的无知选择偏差对实际应用中的稳健模型学习的重要性问题。

Aug, 2017

公平分类：纠正样本差异和交叉偏见

研究了在存在样本筛选偏差的情况下，通过一种小样本无偏估计方法和重新加权方案，来有效评估基于真实分布的假设的风险，以及解决交叉组成员计算困难的问题。

Jun, 2023

缺失非随机数据的深度生成填补模型

数据分析中，常常遇到缺失非随机（MNAR）的问题，本文从新的视角重新考虑 MNAR 问题，提出了一种基于生成模型的联合概率分解方法，并成功应用于数据的插补和遗漏掩码的重建。实验证明，我们的方法在 MNAR 问题上超过了现有的基线模型，并且在均方根误差上取得了显著的提升（平均提高了 9.9% 到 18.8%），同时也得到了更好的掩码重建准确性，使得插补的过程更加可靠。

Aug, 2023

公平稳健训练的样本选择

提出了一种基于样本选择的算法来进行公平和鲁棒性训练，通过解决组合优化问题来实现样本无偏选择，并通过贪心算法解决了 NP 难问题，实验结果表明该算法在合成和基准真实数据集上具有优越的公平和鲁棒性。

Oct, 2021