Oct, 2023
大型语言模型中的性别偏见煽动与缓解之学习
Learning from Red Teaming: Gender Bias Provocation and Mitigation in Large Language Models
Hsuan Su, Cheng-Chu Cheng, Hua Farn, Shachi H Kumar, Saurav Sahay...
TL;DR自动检测大型语言模型(如 ChatGPT 和 GPT-4)潜在性别偏见的研究,提出了一种自动生成测试用例的方法,并通过这些测试用例来减轻模型偏见,从而实现更公正的回复。