Nov, 2023

面向大型语言模型的审计:提升基于文本的刻板印象检测

TL;DR本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器,并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能,利用该模型评估了流行的 GPT 模型系列的刻板印象行为,并观察到刻板印象的减少,从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。