BriefGPT.xyz
Jun, 2023
利用成对分布差异的亲和力聚类框架进行数据去偏差
Affinity Clustering Framework for Data Debiasing Using Pairwise Distribution Discrepancy
HTML
PDF
Siamak Ghodsi, Eirini Ntoutsi
TL;DR
本文提出一种利用亲和力聚类进行数据增强的方法(MASC),以平衡目标数据集中受保护群体和非受保护群体的比例和代表性,通过共享受保护属性的相似数据集的实例并使用非参数谱聚类进行优化数据集分类。实验结果显示该方法可以有效地消除数据偏见。
Abstract
Group imbalance, resulting from inadequate or unrepresentative data collection methods, is a primary cause of
representation bias
in datasets.
representation bias
can exist with respect to different groups of one
→