Oct, 2023

大型语言模型中的性别偏见煽动与缓解之学习

TL;DR自动检测大型语言模型(如ChatGPT和GPT-4)潜在性别偏见的研究,提出了一种自动生成测试用例的方法,并通过这些测试用例来减轻模型偏见,从而实现更公正的回复。