Nov, 2023

通过LLM条件文本生成探索明确和隐含的性别偏见

TL;DR大型语言模型的性别偏见评估涉及大量预定义的性别相关短语和性别刻板印象,而这些短语和刻板印象的全面收集具有挑战性且限制于显性偏见评估。本文提出了一种无需预定义性别短语和刻板印象的条件文本生成机制,通过三种不同策略生成的三种类型的输入来检测大型语言模型中的显性和隐性性别偏见。我们还使用显性和隐性评估指标来评估不同策略下大型语言模型中的性别偏见。实验证明,模型规模的增加并不一定会提高公平性,所有测试的大型语言模型都表现出显性和/或隐性性别偏见,即使输入中没有显性性别刻板印象。