Apr, 2024

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计

TL;DR大规模语言模型在人工智能应用领域有显著的进展,但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集,探索了基于不同机器学习方法的刻板模式检测基线,通过调整语言模型架构和大小,构建了英文文本的一系列刻板模式分类器模型,并使用可解释性人工智能工具进行验证和分析。在生成文本任务中,使用优秀的刻板模式检测器评估了流行大规模语言模型的刻板模式存在程度,并得出了多个关键发现。