May, 2024
FairMonitor:用于检测大型语言模型中的刻板印象和偏见的双重框架
FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models
Yanhong Bai, Jiabao Zhao, Jinxin Shi, Zhentao Xie, Xingjiao Wu...
TL;DR使用 FairMonitor 框架,采用静态 - 动态检测方法对 LLMs 中的刻板印象和偏见进行全面评估。静态组件包括直接问询测试、隐含联想测试和未知情境测试,用于评估显性和隐性偏见。动态组件利用多智能体系统构建动态场景,检测复杂和现实设置中 LLMs 的细微偏见。实验结果表明,静态和动态方法的合作能够检测出更多 LLMs 中的刻板印象和偏见。