EMNLPNov, 2022

SocioProbe:语言模型学习社会人口统计信息的内容、时间和地点

TL;DR通过使用传统的分类器探测和最小描述长度探测技术,我们研究了不同的单 GPU 预训练语言模型对多个英文数据集的社会人口知识。结果表明,PLMs 确实编码了这些社会人口学方面的知识,并且在一些测试的 PLMs 的层之间分散。我们进一步进行了多语言分析,并调查了补充培训的影响,以进一步探讨在何种程度,何处以及何种数量的预训练数据的情况下编码知识。我们的总体结果表明,社会人口知识仍然是 NLP 领域的一大挑战。