Jun, 2024

低资源跨语言迁移的词汇扩展

TL;DR通过在不同角度研究目标词汇规模、初始化方法以及可用于适应的目标数据量,我们在语料资源有限的环境中发现,基于简单启发式的词向量初始化方法更高效、更稳定,能够在目标词汇规模和适应数据变化时胜过常用的随机初始化和更复杂依赖外部数据和模型的最先进方法。