Jun, 2023

使用单词对齐评估词嵌入,mbert 是否理解罗曼什语?

TL;DR我们测试了基于相似性的单词对齐模型(SimAlign 和 awesome-align)与来自 mBERT 和 XLM-R 的单词嵌入在德语和罗曼什语平行句子中的组合。通过使用来自 mBERT 的嵌入,两种模型都达到了 0.22 的对齐误差率,这优于基于快速对齐的统计模型,并且与已知语言的基于相似性的单词对齐持平。我们认为这些结果表明 mBERT 包含的信息可对罗曼什语具有意义且可应用。同时,我们还介绍了一种新的三语料库 DERMIT,其中包含德语,罗曼什语和意大利语的格里森州近 25 年来的新闻稿,该语料库包含 4,547 个平行文档和每种语言组合约 100,000 个句对。此外,我们还提供了德语 - 罗曼什语单词对齐的 “黄金标准”。