EMNLPOct, 2022

M2D2:一种大规模多领域语言建模数据集

TL;DRM2D2 是一个细粒度的、大规模的多域语料库,用于研究语言模型中的域适应。该语料库包含来自维基百科和语义学者的 145 个域,共计 8.5B 个标记。使用来自维基百科和 ArXiv 分类的本体结构,我们将每个数据源中的域组织到 22 个组中。