- 机器学习在医疗领域的样本选择偏差
机器学习算法在个性化医学中具有潜力,但其临床应用仍受到限制。研究表明,样本选择偏差(SSB)是限制其采用的一个关键因素。本研究通过检验 SSB 对机器学习算法性能的影响,指出了潜在的风险,并提出了一种新的研究方向,该方向基于目标人群的识别而 - 高维异质性治疗效应估计的可微分 Pareto 平滑权重
我们提出了一种可通过不同 iable Pareto 平滑加权框架来替换极端权重值的可微分权重学习方法,从而在估算高维异质处理效应时实现数值稳健的估计,实验结果表明,通过有效地校正权重值,我们的方法优于现有方法,包括传统的加权方案。
- 通过因果领域转换评估和校正决策支持系统的表现效果
使用因果领域转移模拟决策支持系统的部署,并提供条件期望的新型跨领域识别结果,既可事前又可事后评估决策支持系统的部署,并通过重新训练模型评估在未部署决策支持系统情况下的风险,为多种形式的目标变量偏差提供了实用的统一解决方案。
- 利用集成多样性增强自训练在样本选择偏差存在时的鲁棒性
自训练是半监督学习中众所周知的方法之一,该方法通过迭代地为模型具有自信的未标记数据分配伪标签,并将其视为标记样例。为了解决置信度过高的问题,本文提出了一种新的置信度度量方法,称为 T - 相似度,它基于线性分类器集合的预测多样性。通过理论分 - 重新思考大规模预排名系统:整条链跨领域模型
通过引入整个链式样本空间依赖,本文提出了一种名为 ECM 的整体链式跨领域模型,用于解决预排序系统中样本选择偏差问题,并设计了一种名为 ECMM 的细粒度神经结构,进一步提高预排序的准确性。实证评估结果表明,我们的预排序模型在实时大规模流量 - 在 Heckman 选择模型中的预测特征分配
使用数据驱动方法生成合适的预测特征集,提出了一种用于处理 MNAR 样本选择偏差的新型框架 Heckman-FA,实验证明其在实际数据集上能产生具有鲁棒性的回归模型。
- Rec4Ad: 淘宝广告 CTR 预测中减轻样本选择偏差的免费午餐
本文提出了一种基于数据增强和自对齐分离的方法 Rec4Ad,利用有机推荐物品和赞助物品的混合结果缓解广告 CTR 模型中的样本选择偏差,实现了在淘宝广告系统中 CTR 和 RPM 的显著提高。
- 缺失非随机样本选择偏差下的鲁棒分类器
本篇论文提出了 BiasCorr 算法,解决了样本选择偏差中 MNAR 标签缺失的问题,该算法可以生成鲁棒的分类器,并可以超越目前在样本选择偏差领域的最佳算法。
- 整个空间反事实学习:调节、分析性质和工业应用
针对构建有效的推荐系统的基本研究问题,本文提出了一个称为整个空间反事实多任务模型(ESCM2)的原则方法,该方法使用反事实风险最小化器一次处理两个问题以处理数据稀疏问题和保证 CVR 估计的无偏性。该方法证明了 ESCM2 优于基线模型。
- ESCM$^2$: 基于全空间反事实多任务模型的后点击转化率估计
本文提出了 ESCM$^2$ 方法来减少前端点击转化率的估计偏差问题和后端点击 - 转化估计时的数据独立性优先问题,并在离线和在线数据集中进行广泛实验,证明其比基线模型表现更好。
- SIGIR通过多任务学习分层建模微观和宏观行为以预测转化率
提出了一种利用用户行为生成网络图,结合宏观和微观行为的 Hierarchically Modeling both Micro and Macro behaviors ($HM^3$) 方法,预测电子商务平台中 Conversion Rate - 深度神经网络中的潜在对抗去偏差:缓解原因变量偏差
通过使用潜在的对抗去偏差 (LAD) 来生成去偏差的训练数据,尽管混淆信号存在于 100% 的训练数据中,但练习神经网络,可以在 Collider Bias 设置中提高它们的推广性。
- SIGIR基于后点击行为分解的整体空间多任务建模用于转化率预测
提出了通过加入一些行为决策点来缓解 Data Sparsity 和 Sample Selection Bias 问题的新的深度推荐模型 ESM²,将多个子任务的概率以及它们在用户行为路径上的条件概率结合起来,通过大量的线下和线上实验验证,实 - 重要性加权生成网络
该研究介绍了基于重要性加权算法的深度生成网络,该算法可以在无法直接访问目标分布的情况下,估计与目标分布相对的损失函数,并在理论和实践上表现出色。
- 识别 N 个变量间所有因果关系的实验数在最坏情况下的充分必要性
利用随机化实验,可在没有潜在变量、样本选择偏差和反馈循环的情况下,确定 N 个变量之间的因果关系,最多需要 log2 (N) + 1 次实验,而当每个实验同时随机化 K 个变量时,我们提供了实验数量的上界,并且发现这个上界比每次随机化最多一 - 应用主动学习克服样本选择偏差:在光变星分类中的应用
研究了机器学习算法在天文学中的应用,发现样本选择偏差是一大问题,探究了几种方法,其中主动学习是一种有效的方法,在变星分类问题上优于现有分类器和其他方法。