Sep, 2022

WeLM: 为中文设计的阅读广泛的预训练语言模型

TL;DR该研究论文讨论了使用自我监督学习进行预训练的大型语言模型,并提出了一种称为 WeLM 的中文预训练模型,它可以在零或者极少示范的情况下无缝执行不同类型的任务,并展示了它在多个领域和语言方面的广泛知识。 WeLM 在单语言(中文)任务中表现优越,也表现出强大的多语种和代码交换理解能力。通过多提示训练,WeLM 可以在未见过的任务上获得强大的推广能力,并超越了无监督的 WeLM 在零样本学习方面的性能。最后,我们展示了 WeLM 具有解释和校准其决策的基本技能,这可以是未来研究的有趣方向。