ACLMay, 2022

富裕国家与更丰富的图像表现

TL;DR本文研究了一些国家在嵌入空间中的代表性是否比其他国家更高,发现在训练语料库中出现频率较低的国家更可能被标记为子词,嵌入空间中的语义差异较小,且更难以正确预测,而这些问题与这些国家的频率有关,而频率与国家的 GDP 高度相关,加剧了历史上的权力和财富不平等。作者分析了缓解的有效性,并建议研究人员报告训练词频,未来的工作则是定义和设计代表性保证。