Aug, 2022

BabelBERT: 大规模多语言 Transformer 遇上大规模多语言词汇资源

TL;DR本文通过在 50 种语言中使用 BabelNet 这一丰富的跨语言单词知识库,将大规模多语言 Transformer(MMT)暴露于多语言词汇知识,并利用对比目标指导下的词汇专业化过程,大幅提高了双语词汇归纳、跨语言单词相似性和跨语言句子检索等交叉语言词汇任务的性能。同时,实验还表明,相对于语言多样性,MMT 的预训练质量对性能有更大的影响。