Oct, 2022

M2D2:一种大规模多领域语言建模数据集

TL;DRM2D2是一个细粒度的、大规模的多域语料库,用于研究语言模型中的域适应。该语料库包含来自维基百科和语义学者的145个域,共计 8.5B 个标记。使用来自维基百科和ArXiv分类的本体结构,我们将每个数据源中的域组织到22个组中。