Jan, 2022

构建公平训练数据集的自适应采样策略

TL;DR本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题,并提出了一种灵活的方法,它包含模型构建者和其他利益相关者的偏好,以及学习任务的统计特性。此外,我们证明,在一定条件下,即使没有关于学习率的先前知识,该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究,我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法,包括等量和比例采样,并证明了通过策略数据集设计构建公平模型的价值。