ACLJun, 2021

nmT5 - 预训练大规模多语言语言模型是否仍需使用平行语料?

TL;DR本文研究了在 mT5 预训练模型中加入平行数据对其性能的影响,结果表明:在预训练期间将多项任务结合进行语言建模,特别是机器翻译等目标任务,可以明显提高其在多语种和跨语种任务中的性能,但随着模型容量的增加,收益开始减少,这表明平行数据对较大的模型来说可能并不那么重要;同时,在有限的标记数据环境中,即使在较大的模型尺寸下,使用平行数据进行预训练仍然具有优势。