降低大语言模型中对酷儿表现的偏见:一种协作代理的方法
本文提出了两个直观的度量标准、skew和stereotype,来量化和分析上下文语言模型应对WinoBias代词消解任务时存在的性别偏见,并通过两种方法调查了如何减少偏见。第一个方法是在线方法,在牺牲刻板印象的代价下有效地消除偏斜。第二个方法是借鉴了ELMo的先前工作,并使用增强的性别平衡数据集微调BERT,结果与无增强微调的BERT相比,降低了skew和stereotype。但是,我们发现现有的性别偏见基准未完全探测到专业偏见,因为代词消解可能会被来自其他性别偏见表现的交叉相关性所混淆。
Jan, 2021
通过结合包含性别漏洞的语言数据库和标准的预训练模型,我们展示了一个实现通过自然语言处理确定性别漏洞的任务的模型,并通过数据基准测试来评估其性能,并建议尝试更多的训练数据以推广性别包容语言。
Dec, 2022
本文探讨了语言技术中的性别偏见问题,提出了一个 MISGENDERED 框架来评估语言模型的性别中性人称的正确使用,发现基于二元性别训练的语言模型在使用非二元人称时普遍存在误差和算法偏差。
Jun, 2023
LLMs 生成的文本存在社会偏见,本文通过情感分数打分分析,证明了 LLMs 生成文本存在性少数群体偏见,并展示了一种基于 SHAP 分析的启发式方法来减轻性少数群体偏见的方法
Jun, 2023
研究探讨荷兰指代消解系统对中性代词(如hen和die)的性能,比较了两种去偏见技术(CDA和delexicalisation)对非二元上下文的指代消解系统的影响,并引入了评估中性代词性能的新度量标准——代词得分。结果显示相较于有性别的对应词,中性代词的性能下降,然而CDA大大缩小了有性别和中性代词之间的性能差距,并且在资源有限的情况下仍然有效,证明了以最少资源和低计算成本实现有效去偏见的可行性。
Apr, 2024
通过使用我们的新评估框架QueerBench,本文评估了英语大语言模型(LLMs)生成的句子完成对LGBTQIA+个体可能造成的潜在危害,并表明大型语言模型在对LGBTQIA+社群中的个体表现出更频繁的歧视行为,使得QueerBench有害性得分在7.2%的差距内增加。
Jun, 2024
通过在大型语言模型(LLMs)的训练数据中调整语言结构以促进性别包容性,我们的研究关注英语中的性别排他性词缀,旨在减少性别定型倾向并提供一种实用方法增强LLMs训练数据中的性别包容性。
Jul, 2024
本研究针对大型语言模型(LLMs)在自然语言生成中放大性别相关社会偏见的问题,提出了GenderCARE框架,以构建灵活而全面的评估标准、偏见评估、减少技术及评估指标。研究表明,该框架能显著减少性别偏见,且在保持模型性能的同时,实现过90%的偏差降低,为实现LLMs的公平性和公正性提供了新的解决方案。
Aug, 2024
本研究旨在解决大型语言模型(LLMs)在多智能体互动中存在的隐性性别偏见问题。通过构建一个可能出现隐性偏见的数据集,并评估偏见程度,研究提出了两种效果显著的缓解策略:自我反思和监督微调。研究表明,这些方法有效减少了偏见,并且两者结合效果最佳。
Oct, 2024