Jun, 2024

GECOBench: 一个用于评估解释中偏见量化的性别控制文本数据集和基准

TL;DR此研究探讨了大型预训练语言模型的可解释性人工智能技术及其对性别偏见的影响,并创建了一个性别控制文本数据集,通过对预训练模型的不同微调程度进行 XAI 方法的评估,展示了解释性能与微调层数之间的关系。