- 数据增强最后一层训练方法的理论保证
通过线性最后一层重新训练和数据增强,我们针对每个子人群将潜在表示(输入到最后一层的数据)的分布建模为高斯分布,以实现在训练数据的许多不同子人群之间确保公平预测,并达到最优的最差组准确性。我们对合成数据和大型公开数据集进行了评估和验证。
- 合成对照下的自适应实验设计
提出了一种名为 Syntax 的试验设计,通过在多个亚人群中形成合成控制来估计治疗效果,以识别对治疗有效果的亚人群,从而解决患者对同一治疗方式反应不一致的问题。
- 贝叶斯紧张样条估计模数
本研究提出了一种基于核估计器和简捷组成样条的方法,通过贝叶斯推理范式实现特征探索、模型选择和模态测试,从而提高概率密度函数的预测精度与模型解释性,在体育分析等领域得到展示,并得到了充分的模拟实验验证。
- 增强子种群模型性能的集成合成电子健康记录生成
该研究提出了一种基于生成模型的集成框架,用于训练适用于少数人群的预测模型,其包含用于每个子人群的基于 GAN 的合成数据生成器,并将生成的样本合并到每个子人群的训练数据集中,并在 MIMIC 数据库上的 2 个实际用例数据集上评估。结果表明 - 公平性审计的统计推断
通过多重假设检验,在统计保证的前提下,使用自助法在子人群的集合中同时限制性能差异,从而识别受模型性能不足影响的子人群并验证模型在某些子人群中的适用性。此外,该方法还兼容超丰富甚至无限的子人群集合,并支持评估在某些分布变化下的性能。
- 基于子人群公平约束的最佳臂识别
本文研究了在子人群中具有公平性约束的最佳臂识别问题,提出了算法并证明了样本复杂度的下限和算法一致。
- 因果数量的 Epsilon 可识别性
论文展示了如何在某些狭窄的限制边界内实现一些因果关系概率的部分可识别性,其中包括不可识别的因果效应和反事实概率,最后还将此应用到单位选择问题。
- 从有限总体数据中学习因果概率
本文提出了一种机器学习模型,用于在仅知晓有限人口数据的情况下学习亚人口因果概率的边界,并通过模拟研究表明,该机器学习模型能够仅通过约 500 个有限人口数据来学习 32768 个亚人口的必要性和充分性边界。
- 基于 1100 万条推文的深度学习揭示了 COVID-19 疫苗多样化和变化情感模式
通过分析社交媒体上用户对 COVID-19 疫苗的感受和情绪波动,研究者们发现了不同人群对疫苗的态度差异。疫苗接种率的提高与用户情绪向积极的变化密切相关,视角细分的情感分析能够为疫苗推广策略提供实质性的桥梁作用。
- iSEA: NLP 模型语义错误分析的交互式流水线
我们提出了 iSEA,一种交互式语义错误分析工具,它自动发现高错误率的语义基础子人群,并支持自定义子群。通过使用案例和专家访谈,我们演示了 iSEA 如何协助误差理解和分析。
- ACLPECO: 通过聚类离群值的渐进式评估来检查自然语言推理数据集中的单句标签泄漏
本文介绍了一种基于模型的技术 PECO,用于识别自然语言推理数据集中单句标签泄漏问题和子群体。通过分析现有数据集,表明单句标签泄漏问题仍然普遍存在于当今自然语言推理评估任务中。
- 生存聚类分析
本文介绍了一种基于贝叶斯非参数的方法,用于识别具有不同风险特征的子种群,并通过在群体层面上利用规律来优化个体预测的时间,进而提高预测性能和可解释性。
- 基于异常模式检测的随机实验中异质性治疗效应的高效发现
该研究提出了一种新方法 Treatment Effect Subset Scan (TESS),用于在随机实验中确定哪个子人群受到治疗的影响最大,实验表明该方法可以发现异质性治疗效果.
- 面向(可计算识别的)大众的校准
针对算法可能存在的歧视问题,该研究提出了一种新的算法公平度量标准,名为 multicalibration,保证对每个子人群的预测都准确,从而实现更加精准的预测和防止歧视问题的出现。