Mar, 2022

机器学习和人工智能系统的数据可代表性

TL;DR本文研究数据的代表性对于通过机器学习模型进行数据推断至关重要,探讨了模型中的偏见和公正性,以及与输入数据固有偏见的关系。本文介绍了三个可测量概念,以帮助集中观点并评估不同的数据样本。通过对美国人口普查数据的实证演示,我们评估了这些概念之间的对比。最后,我们提出了一个问题框架,帮助设计人员在数据文档模板中考虑数据的代表性。