大型语言模型公平性调研
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
通过使用划分群体公平性的全新层次模式,我们提出了对大型语言模型进行偏见评估的方法,并构建了一个跨多个维度的目标属性组合的数据集,GFair。此外,我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估,我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见,我们首创了一种新的思维链(GF-Think)方法。实验结果表明,此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。
Dec, 2023
利用大型语言模型(LLM)在各种下游应用中进行分类等工作至关重要,通过公平性可以确保包容性,基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定,每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入,并使用RAG选择上下文演示来探索上下文学习的配置和过程。通过与不同LLM的实验比较,发现GPT-4在准确性和公平性方面的结果都优于其他模型。本研究是利用LLMs通过上下文学习实现预测任务公平性的早期尝试之一。
Feb, 2024
对公平语言模型进行了全面的综述,介绍了现有文献中关于公平语言模型的最新进展,讨论了导致公平语言模型偏见的因素,总结了评估偏见的度量标准和促进公平的现有算法,并提供了用于评估偏见的资源。
Mar, 2024
该研究旨在为从业者提供技术指南,以评估大型语言模型(LLMs)使用情况中的偏见和公平风险。研究通过分类LLM偏见和公平风险,并形式化定义各种评估指标来提供决策框架,以确定特定LLM使用情况下应使用哪些指标。
Jul, 2024
本研究针对大型语言模型(LLMs)中的公平性问题进行探讨,突显其在处理边缘群体时可能导致歧视性结果的风险。通过分析偏见原因并总结评估偏见的策略及促进公平的算法,研究为公平LLMs的文献提供系统性的概述,并提出当前研究中面临的挑战和未解的问题,助力推动公平技术的发展。
Aug, 2024
本文探讨大型语言模型(LLMs)中的公平性问题,尤其是它们对边缘化群体可能产生的歧视性结果。通过系统回顾最近的研究进展,文章提供了对偏见原因的分析,以及评估和促进公平性的方法,旨在提升LLMs的应用公平性并解决当前研究中的挑战。
Aug, 2024
本研究针对大型语言模型(LLMs)中的偏见问题进行全面调查,填补了当前研究中的空白。通过系统分类偏见的类型、来源和影响,并评估现有的缓解策略,本文提出了未来提升模型公平性和公正性的研究方向。研究结果为关注LLMs偏见的研究人员、从业者和政策制定者提供了重要资源。
Sep, 2024
该研究针对大型语言模型(LLMs)中存在的偏见问题,提出了一种新颖的多LLM去偏见框架。该框架引入了集中式和去中心化两种方法,显著减少了模型中的偏见,并在各社会群体中超越了基线方法,展现了良好的效果。
Sep, 2024