在 Heckman 选择模型中的预测特征分配

Sep, 2023

在 Heckman 选择模型中的预测特征分配

On Prediction Feature Assignment in the Heckman Selection Model

Huy Mai, Xintao Wu

TL;DR使用数据驱动方法生成合适的预测特征集，提出了一种用于处理 MNAR 样本选择偏差的新型框架 Heckman-FA，实验证明其在实际数据集上能产生具有鲁棒性的回归模型。

Abstract

Under missing-not-at-random (MNAR) sample selection bias, the performance of a prediction model is often degraded. This paper focuses on o

missing-not-at-random sample selection bias prediction model heckman selection model prediction features

发现论文，激发创造

缺失非随机样本选择偏差下的鲁棒分类器

本篇论文提出了 BiasCorr 算法，解决了样本选择偏差中 MNAR 标签缺失的问题，该算法可以生成鲁棒的分类器，并可以超越目前在样本选择偏差领域的最佳算法。

May, 2023

缺失非随机数据的填补和低秩估计

本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据，该方法在处理不同类型的丢失机制时具有稳健性和计算效率，并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。

Dec, 2018

前向后向选择和早期淘汰

本文提出了一种启发式方法，通过临时舍弃条件独立于特征集所选择的变量，在保持预测准确性的同时显著提高了前向 - 后向选择算法的运行效率，并在能够被贝叶斯网络或最大祖先图恰当表示的分布中，能够正确识别马尔科夫毯子。

May, 2017

矩阵补全中缺失非随机性：在低核范数假设下估计缺失概率的有效性

本文研究了具有缺失非随机性的矩阵补全问题，提出了一种新的缺失概率估计方法，通过观察缺失数据的核范数结构，将缺失数据的概率转化为矩阵补全问题。该方法能够显著降低标准矩阵补全算法在缺失数据情况下预测结果的偏差，实验表明其效果好于传统方法。

Oct, 2019

高维回归分析中的因子模型和变量选择

本文提出了一种因子方法来同时考虑模型选择和功能回归的视角，通过将预测向量分解为反映解释变量的共同因素和特定变异性的两个不相关随机分量，以包括主成分作为额外的解释变量在增广回归模型中，维度高于样本大小的线性回归问题中传统假设的稀疏向量参数是具有限制性的，模型选择程序可以用于估计增广模型的参数，并得出其理论性质和有限样本表现。

Feb, 2012

算法公平性的因果特征选择

本文介绍了一种使用因果干预公平性范例，通过在数据管理的集成组件中考虑公平性来识别特征以提高预测质量而不添加偏差的方法，提出了一种使用条件独立性检测的方法来确定确保干预公平的特征子集，并通过现实世界的数据集进行了详细的实证评估，证明了方法的有效性和效率。

Jun, 2020

非可忽略缺失数据的识别与估计：一种数据融合方法

我们考虑的是在数据不随机缺失（MNAR）的情况下识别和估计感兴趣的参数。本文提出了一种受数据融合启发的方法，其中 MNAR 数据集的信息通过与随机缺失（MAR）的辅助数据集的信息来增强。我们展示了在两组互补假设下，即使单独给定任一数据集都无法识别感兴趣的参数，但在汇总数据给定情况下可以识别。我们推导了一种逆概率加权（IPW）估计器用于识别的参数，并通过模拟研究评估了我们的估计策略的性能。

Nov, 2023

协同过滤和缺失的随机假设

本文介绍了一个用户研究的结果，即随机选取评分在更精确地评估评价预测时比用户选择评分更符合随机假设，且将缺失数据机制作为一个显式模型可以提高评分预测性能。

Jun, 2012

动态特征选择的条件互信息估计

本文介绍了一种基于信息论的动态特征选择方法，通过学习选择策略实现特征效益的高效获取。与现有最先进方法相比，该方法在各种数据集上都提供了一致的收益。

Jun, 2023

一种用于不完整数据的新型特征选择框架

提出了一种考虑特征重要性的新型不完整数据特征选择框架，通过多个迭代阶段的缺失值插补和特征重要性学习，实验结果表明该方法明显优于其他方法。

Dec, 2023