ACLMar, 2024

GlossLM:面向低资源的多语言预训练用于语言互译注释

TL;DR我们编译了最大的现有的跨语言翻译数据语料库,从多个来源收集了超过 450k 个样例,覆盖了 1.8k 种语言,以便进行跨语言转移和跨语言翻译生成的研究。然后,我们对这个语料库的部分内容进行大规模多语言模型预训练,并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力,同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6%,证明了跨语言转移对于资源稀缺的语言的有效性。