Jun, 2023

探究姓氏对语言模型的因果效应:以社交常识推理为例

TL;DR本研究旨在检验语言模型中名字对常识推理能力的影响,并提出了可控性实验框架和解释分析来证明了首次提出的假设,即一般的常识推理与他们所用的人名无关,结果显示人名的频次对模型的预测产生了不同的影响,并建议在数据集配置阶段增加更多多样性的人名以确保模型的健壮性。