Mar, 2024

公平性的最优输运:使用小型研究数据集进行档案数据修复

TL;DR在此论文中,我们通过条件独立性定义公平性,探讨了 AI Act 和其他法规对于修复训练数据中的不公平性的迫切需求。我们通过使用仅占大规模数据一小部分比例的 S|U 标记的研究数据,设计了基于最优运输的插值曲线支撑的修复方案,以实现对非样本数据的修复,并在满足平稳性假设的前提下显著减小了 OT 方案的支撑集大小,从而大大节省了设计和顺序应用 OT 方案到非样本数据中所需的成本。通过模拟和基准真实数据(成人数据集)的详细实验结果,我们证明了对大量非样本(归档)数据的有效修复,从而抑制了条件依赖。