EMNLPSep, 2021

数据集:自然语言处理社区的共享库

TL;DR该研究论文探讨了一个名为 Datasets 的 NLP 数据集库,旨在通过标准化终端用户接口、版本控制和文档,为 NLP 研究人员提供一个小型数据集至互联网规模文集均能使用的轻量级前端,并采用分布式、社区驱动的方法添加数据集和记录使用情况。经过一年的发展,在该库中已经包含超过 650 个独特的数据集,有 250 多名贡献者,并帮助支持了一系列新颖的交叉数据集研究项目和共享任务。