基于累积局部效应的机器学习和经典技术的统计推断
提出了一种名为 “健壮且考虑异质性积累局部影响力 (RHALE)” 的解释性方法,旨在解决累积局部影响力(ALE)方法的两个局限性:无法量化局部效果与平均效果之间的异质性以及对特征域进行固定大小的分区时可能导致不一致估计的问题。通过使用标准差考虑局部效果的异质性和自动确定最佳分区,RHALE 方法在合成和真实数据集上的评估表明其优于其他方法,尤其是在存在相关特征的情况下,自动分区的优势得以体现。
Sep, 2023
提出了一种名为积累局部影响(ALE)图的新的可视化方法,与 PD 图和 M 图相比,ALE 图不需要外推,并且不会因省略变量而产生偏差,它结合了 PD 图和 M 图的优点,是一种较少计算负担的数据可视化工具,用于对黑盒子监督学习模型进行主要因素和交互作用影响程度的可视化。
Dec, 2016
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
本研究提出了一种基于因果推论和随机实验的新算法,通过采样训练数据的不同子集进行训练,评估每个子模型的行为,使用 LASSO 回归来估计每个数据点的 AME,并只需要 O (klogN) 的数据点估计其表现。
Jun, 2022
本文提出了一种基于现有的可解释人工智能(XAI)方法的、适用于机器学习的无模型假设检验框架,其中利用 Fisher 的变量置换算法计算等效于 OLS 回归模型的 Cohen's f2 的效应量度量,并将 Mann-Kendall 检验和 Theil-Sen 估计器应用于 Apley 的累积局部效应图,以指定变量的影响方向和统计显著性。该方法在人工数据集和社会调查中得以证明其有效性。
Feb, 2023
通过对模拟数据和真实世界数据的性能比较,本文评估了一种名为 “双重 / 无偏机器学习”(DML)的方法,在估算因果效应时,使用机器学习放宽了传统假设的限制。我们发现,将灵活的机器学习算法应用于 DML 可以提高对各种非线性混淆关系的调整,从而避免了传统因果效应估计中通常需要的功能形式假设。然而,我们证明这种方法仍然严重依赖于因果结构和识别的标准假设。在我们的应用中,估计空气污染对房价的影响时,我们发现 DML 估计结果一直比不太灵活的方法估计结果要大。基于我们的整体结果,我们为研究人员在实际应用 DML 时提供了可行的建议。
Mar, 2024
本研究提出了一种名为 GALE 的机器学习模型,旨在提供有关模型全局决策过程的洞见。结果表明,聚合方法的选择很重要,我们的提出的聚合方法能更好地代表特征如何影响模型的预测,并通过识别区分性特征提供全局洞见。
Jul, 2019
本文提出 ALICE Score,用于评估分类器的可信度,可在类别不平衡、超出分布范围和训练不足等情况下进行准确的评估,与其他置信度估计方法相比,具有显著的性能提升。
Oct, 2019
本论文介绍了一种基于贝叶斯神经网络的框架,可通过只使用少量标记测试数据有效地测试机器学习模型的正确性,该框架利用数据扩充方法训练 BNN 以实现高精度,同时采用理论信息为基础的采样策略来采样数据点以实现准确的度量估计,并通过实验表明我们的方法比现有基准显着地提高了指标估计的准确性。
Apr, 2021