May, 2023

专注:有效的嵌入初始化策略用于针对单一语言进行预训练的多语言模型优化

TL;DR使用高资源语言预训练的模型权重作为启动可以降低获取低资源语言高质量语言模型所需的数据和计算量,为了适应新语言,需要调整预先训练的词汇表和嵌入。本文研究了多语言源模型设置,提出了 FOCUS - Fast Overlapping Token Combinations Using Sparsemax 一种嵌入初始化方法,该方法在适应 XLM-R 时优于先前的方法,FOCUS 将新添加的令牌表示为预训练和新词汇表重叠的令牌组合。重叠的令牌是基于辅助令牌嵌入空间中的语义相似性选择的。