Sep, 2021

继母很恶毒,学者很自负:预训练语言模型学到了什么?

TL;DR本研究探讨了预训练语言模型捕捉的刻板印象信息类型,提出了第一个包括不同社会群体的刻板属性的数据集,并提出了一种无监督获取预训练语言模型编码的刻板印象的方法,同时将 emergent stereotypes 与其作为基本情感的体现进行关联,以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究,展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。