Apr, 2024

跨语言 LLM 自适应持续预训练:增强日语语言能力

TL;DR本研究通过跨语言连续预训练来提升大规模语言模型的日语能力,并扩展了词汇表以包括日语字符,通过在大规模网页语料库上进行连续预训练,结果表明,Swallow 在日语任务上的性能显著提高,并且随着训练数据量的增加而逐渐增强,相比从头开始训练的其他英日语言模型,Swallow 表现出较优异的性能。同时,研究还探究了从英语到日语的跨语言连续预训练的有效方法,发现词汇扩展对性能的效果除了摘要任务外没有负面影响,且使用平行语料库可以提高翻译能力。