TL;DR应用现有子词规范化方法 (Kudo,2018;Profilkov et al., 2020) 对预训练的多语言表示进行微调,通过多视角子词规范化(MVR)方法增强跨语言转移的有效性,同时改善标准分词算法的效果,提高多语种基准测试 (XTREME) 的一致性改进 2.5 个点。
Abstract
multilingual pretrained representations generally rely on subword
segmentation algorithms to create a shared multilingual vocabulary. However,
standard heuristic algorithms often lead to sub-optimal segmentation,
especially for languages with limited amounts of data. In this paper, we
本文提出了使用视觉文本表示(visual text representations)替代有限的文本嵌入向量(finite set of text embeddings),以建立起使用连续词汇(continuous vocabularies)的翻译模型,以此提高模型的稳健性减少了噪声对模型的影响。实验证明,使用视觉文本表示的模型在小型和大型数据集上实现了与传统文本模型相当或更好的表现。