多大型语言模型去偏见框架
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
通过使用划分群体公平性的全新层次模式,我们提出了对大型语言模型进行偏见评估的方法,并构建了一个跨多个维度的目标属性组合的数据集,GFair。此外,我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估,我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见,我们首创了一种新的思维链(GF-Think)方法。实验结果表明,此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。
Dec, 2023
通过使用结构化知识和大型生成模型,在多个偏见维度上以半自动的方式构建多样化反事实数据扩充(CDA),我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用,并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估,证明了我们的方法的有效性。
Feb, 2024
使用ChatGPT生成综合训练数据提高去偏置大型语言模型的方法表明,可以在降低计算成本、数据限制和多任务语言能力降低的情况下,有效地减少大型语言模型的社会偏见,并具有跨类别的去偏置性能。
Feb, 2024
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为LLMs配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知LLMs它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高LLMs识别和解决偏见的能力。这种改进归因于LLMs的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少LLMs输出偏见的新方法。该方法涉及将LLMs置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理AI系统的努力作出了有价值的贡献。
Apr, 2024
大型语言模型(LLMs)具有卓越的性能,在各种自然语言处理(NLP)任务中表现出色。本文通过一种新颖的基于特征的分析方法研究了LLMs内部偏见的传播。我们的发现揭示了LLMs中偏见的复杂性质并强调了定制的去偏方法的必要性,为有效缓解偏见机制和途径提供了更深入的理解。
Jun, 2024
本研究针对大型语言模型(LLMs)在偏见检测方面的缺乏标准和成本高昂问题,提出了一种自动生成对抗性提示的创新方法,以揭示模型的偏见反应。研究表明,所提出的LLM作为评判者的评估指标与人类评判一致,显示出其在偏见评估中的潜力和重要性。
Aug, 2024
本研究针对大型语言模型(LLMs)中的偏见问题进行全面调查,填补了当前研究中的空白。通过系统分类偏见的类型、来源和影响,并评估现有的缓解策略,本文提出了未来提升模型公平性和公正性的研究方向。研究结果为关注LLMs偏见的研究人员、从业者和政策制定者提供了重要资源。
Sep, 2024