Nov, 2023

OFA:一种为高效大规模多语言持续预训练初始化未见子词嵌入的框架

TL;DR提出了一种新颖的方法 One For All (Ofa),通过智能地初始化目标语言中看不见的子词嵌入,从而高效有效地将预训练语言模型(PLMs)适应于多种语言,并通过外部的多语言词嵌入和矩阵分解技术提高效率和性能。