May, 2021

机器学习研究中的 “文档债务”:《BookCorpus》回顾性数据表

TL;DR本文旨在帮助解决 BookCorpus 数据集的文档债务问题,提供初步数据表,揭示了该数据集存在违反版权限制、大量重复书籍以及流派偏差等问题,并呼吁更加注意和系统化的机器学习数据集文档化工作。