Aug, 2024

GenderCARE:评估和减少大型语言模型中性别偏见的综合框架

TL;DR本研究针对大型语言模型(LLMs)在自然语言生成中放大性别相关社会偏见的问题,提出了GenderCARE框架,以构建灵活而全面的评估标准、偏见评估、减少技术及评估指标。研究表明,该框架能显著减少性别偏见,且在保持模型性能的同时,实现过90%的偏差降低,为实现LLMs的公平性和公正性提供了新的解决方案。