May, 2024

FairMonitor:用于检测大型语言模型中的刻板印象和偏见的双重框架

TL;DR使用 FairMonitor 框架,采用静态 - 动态检测方法对 LLMs 中的刻板印象和偏见进行全面评估。静态组件包括直接问询测试、隐含联想测试和未知情境测试,用于评估显性和隐性偏见。动态组件利用多智能体系统构建动态场景,检测复杂和现实设置中 LLMs 的细微偏见。实验结果表明,静态和动态方法的合作能够检测出更多 LLMs 中的刻板印象和偏见。