Aug, 2023

FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架

TL;DR本研究介绍了一种四阶段的框架来直接评估大型语言模型(LLMs)生成的内容中的刻板印象和偏见,包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。此外,本文提出了多维度评估指标和可解释的零样本提示用于自动评估。使用教育领域作为案例研究,我们按照这个四阶段框架构建了 Edu-FairBench,其中包含了 12632 个开放性问题,涵盖了九个敏感因素和 26 个教育场景。实验结果显示在 Edu-FairBench 上评估的五个 LLMs 存在不同程度的刻板印象和偏见。此外,我们提出的自动评估方法的结果与人工注释有很高的相关性。