ICMLMar, 2021

表征很重要:评估训练数据中子组分配的重要性

TL;DR通过将数据收集视为学习过程的一部分,我们表明不仅多样化的训练数据可以提高子群体的性能,还可以实现人口水平的目标。我们的分析和实验描述了数据集组成如何影响性能,并提供了建设性的结果,以利用现有数据的趋势和领域知识,帮助指导有意识、具有目标意识的数据集设计。