Jan, 2022

地理和背景多样化数据源文献:BigScience 语言数据和资源目录

TL;DR本研究介绍了一个大型数据收集项目的方法论,强调了文档记录和以人为中心的方法,通过在线目录和公共黑客马拉松活动进行元数据的收集,以解决大型语言模型数据收集面临的难题,研究结果分析了所得到的资源元数据分布情况,并总结了在此项目中的经验教训。