EMNLPMay, 2022

GeoMLAMA:多语言预训练语言模型上的地理多样性常识探针

TL;DR本文介绍了一个多语种、跨文化的基准数据集 GeoMLAMA,旨在探究多语种 PLMs 中通用知识的多样性,通过在 11 个标准多语种 PLMs 上的测试,发现尺寸较大的多语种 PLMs 并不一定比尺寸较小的更好地存储多样的概念,语言不一定能很好地反映其本地文化的知识,而一个语言在探索非本国国家的知识时,则可能比探索本国国家的知识更好。