- 使用 Datamodels(D3M)进行数据去偏:通过数据选择提高子群体鲁棒性
使用 Data Debiasing with Datamodels (D3M) 方法,在不需要训练组注释或额外的超参数调整的情况下,通过隔离和移除导致模型在少数群体上失败的特定训练样本,可以高效地训练去偏置分类器。
- 组分布稳健数据集蒸馏及风险最小化
通过结合聚类和风险度量的最小化算法,实现数据集精炼,具备对子群体的有效泛化和稳健性,为解决合成数据集在面对低人口密度地区样本时表现优秀的问题提供了理论依据和数值实验验证。
- 青少年关系行为与肥胖大流行:一项运用社交网络分析与机器学习技术的描述性研究
青少年在教室内形成了亚群,亚群凝聚力由影响肥胖的方面的相似性和与食物质量和性别相关的属性共享所定义。SNA 相关的同质性概念及 Girvan-Newman 算法的应用结合了人工智能技术,为亚群间的相似性和凝聚力提供了鲁棒性。
- 用于阿片类药物使用障碍的个性化医学中基于亚种识别的异构性治疗效果估计
本研究介绍了一种名为 SubgroupTE 的新型神经网络框架,该框架结合了亚群识别和治疗效果估计,通过考虑治疗反应的异质性,为每个亚群同时估计治疗效果,从而提高了治疗效果估计的准确性。在合成数据上的比较实验表明,SubgroupTE 在治 - 子群对聚类导航问题的研究
本论文介绍了一种 Orienteering Problem(OP)的扩展,被称为 Clustered Orienteering Problem with Subgroups (COPS)。在这个变种中,节点被分成子组,并且子组被组织成簇。每 - 用因果森林目标相对风险异质性
我们提出并实施了一种方法,通过基于广义线性模型比较的新颖节点分割过程,修改因果森林以针对相对风险目标。我们展示了对模拟和真实数据的结果,表明相对风险因果森林可以捕捉到未观察到的异质性来源。
- 公平中心技术简报:AUC 差距
衡量偏见,我们鼓励团队使用 AUC Gap:子组的最高和最低测试 AUC 之间的绝对差异(例如,性别,种族,SES,先前知识)。它对所使用的 AI/ML 算法不加偏好,并捕捉了模型在任意数量的子组中的性能差异,从而实现了关于交叉身份群体的公 - 发现离散对称性的统一框架
我们开发了一个统一的框架,通过线性和张量值函数的组合表达在各种子群中对称不变的函数,利用多臂老虎机算法和梯度下降优化线性和张量值函数,从而学习出对应的对称性。通过图像数字求和和多项式回归任务的实验,证明了我们方法的有效性。
- 使用异构数据批量进行线性回归
在很多学习应用中,数据来自多个来源,每个来源提供的样本批次本身无法足够学习其中的输入 - 输出关系。本文提出了一种基于梯度的新算法,通过解决多个问题改进了现有结果的适用性,包括允许子群的底层输入分布不同、未知和重尾、复原所有子群以及一个重要 - 使用随机效应机器学习算法识别抑郁易感性
通过使用机器学习方法来确定可以最好地识别处于抑郁症高风险亚组的变量,本研究阐明了重复效应 / 期望最大化(RE-EM)树和混合效应随机森林(MERF)等数据驱动的机器学习(ML)方法可靠性地预测未来和现在的抑郁症状,并已确定哀愁、负性生活事 - 面向子群体的公平感知反事实
介绍了一种用于审计子组公平性的框架,通过反事实说明来指出不同方面中某些子组个体实现补救的困难,提出了不同基本的子组公平概念。同时,提出了一个高效的,模型不可知的,高度可参数化和可解释的子组公平评估框架,并对不同基准数据集进行了彻底的实验评估 - ICML基于数据驱动的线性回归子群识别
本文提出 DDGroup 方法,一种基于数据的方法,能够有效识别在特征和标签之间具有统一线性关系的数据子群组。DDGroup 可以发现参数法无法发现的具有 qualitatively different relationships 的数据子 - 隐含层次和多组学习的简单近似最优算法
本论文研究了多组学习问题的解决结构并提供了简单和近乎最优的算法,以解决子群体的条件风险与公平性问题。
- 动量多校准方法用于不确定性估计
通过多校准算法,我们不仅能预测标签分布的期望值,还能预测更高阶矩,这为在各个子群体上估计不确定性和诊断特征的不公平性提供了一个原则性的方法。
- 通过睡眠专家推进子群体公平
研究在具有重叠人口和顺序预测的情况下改善对子群体的公平性的方法,并指出当多个重叠群体的目标不是平等预测而是良好预测时,满足此保证的任务并不简单,即使针对每个子群体分别提供性能良好的预测器,对于未加权的假阴性和假阳性率的简单目标而言,满足这个 - 机器学习中富群体公平性的实证研究
研究了 Kearns 等人提出的富子群公平概念及其算法,经过对四个真实数据集的大量实证评估,证明其可行性和有效性。
- 基于实数目标的主观有趣子群发现
该研究介绍了一种基于主观趣味性框架的方法,用于在高维数据中查找最具信息量的子组。该方法可以同时考虑多个实值目标属性,并且通过迭代数据挖掘支持知识的应用。
- 多智能体群体行为分析中的人口普查信号时态逻辑推断
本文定义了一种新的基于人口普查的时态逻辑(CensusSTL),并提出了一种新的推理算法来从一组代理的轨迹数据中推断 CensusSTL 公式,并将算法应用于足球比赛数据的分析中,以推断足球队的不同子组的 CensusSTL 公式。
- 基于后验子集中位数的鲁棒可伸缩贝叶斯
提出了一种新的贝叶斯分析方法,其在数据中有很强的鲁棒性,通常比传统方法具有更好的计算性能。该方法将数据分成非重叠的子组,评估每个独立子组得到的后验分布,然后组合结果。该方法的主要创新点是提出了一个基于概率度量空间中中位数的聚合步骤,提出了一