BriefGPT.xyz
Oct, 2022
M2D2:一种大规模多领域语言建模数据集
M2D2: A Massively Multi-domain Language Modeling Dataset
HTML
PDF
Machel Reid, Victor Zhong, Suchin Gururangan, Luke Zettlemoyer
TL;DR
M2D2是一个细粒度的、大规模的多域语料库,用于研究语言模型中的域适应。该语料库包含来自维基百科和语义学者的145个域,共计 8.5B 个标记。使用来自维基百科和ArXiv分类的本体结构,我们将每个数据源中的域组织到22个组中。
Abstract
We present
m2d2
, a fine-grained, massively multi-domain
corpus
for studying
domain adaptation
in
→