Aug, 2022

AlexaTM 20B: 使用大规模多语言 Seq2Seq 模型进行小样本学习

TL;DR本研究旨在探究多语言大规模序列到序列模型 (seq2seq),其中包括噪声处理和因果语言建模 (CLM) 的混合预训练模型,对于几个任务比解码器模型更具备有效的学习能力。我们在训练了一个 200 亿参数的 Alexa 教师模型( AlexaTM 20B)后,发现它在一次性概述任务和机器翻译任务上的性能比一个 540B 的 PaLM 解码器模型更好,并且特别适用于低资源语言。AlexaTM 20B 还可以在零次见示下,胜过 GPT3 (175B) 并在 XNLI、XCOPA、Paws-X 和 XWinograd 等多语言任务中提供最先进的性能。总的来说,我们的研究结果表明,seq2seq 模型是一个强大的替代解码器模型的大规模语言模型 (LLM) 的选择。