Aug, 2022
BabelBERT: 大规模多语言 Transformer 遇上大规模多语言词汇资源
BabelBERT: Massively Multilingual Transformers Meet a Massively Multilingual Lexical Resource
Tommaso Green, Simone Paolo Ponzetto, Goran Glavaš
TL;DR本文通过在 50 种语言中使用 BabelNet 这一丰富的跨语言单词知识库,将大规模多语言 Transformer(MMT)暴露于多语言词汇知识,并利用对比目标指导下的词汇专业化过程,大幅提高了双语词汇归纳、跨语言单词相似性和跨语言句子检索等交叉语言词汇任务的性能。同时,实验还表明,相对于语言多样性,MMT 的预训练质量对性能有更大的影响。