大型语言模型公平性调研

Aug, 2023

A Survey on Fairness in Large Language Models

Yingji Li, Mengnan Du, Rui Song, Xin Wang, Ying Wang

TL;DR大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Abstract

large language models (LLMs) have shown powerful performance and development prospect and are widely deployed in the real world. However, LLMs can capture social biases from unprocessed training data and propagate the biases to downstream tasks. Unfair LLM systems have undesirable soci

发现论文，激发创造

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大规模语言模型的团体公平透视

通过使用划分群体公平性的全新层次模式，我们提出了对大型语言模型进行偏见评估的方法，并构建了一个跨多个维度的目标属性组合的数据集，GFair。此外，我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估，我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见，我们首创了一种新的思维链(GF-Think)方法。实验结果表明，此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。

Dec, 2023

少样本公平性：揭示 LLM 对公平感知分类的潜力

利用大型语言模型（LLM）在各种下游应用中进行分类等工作至关重要，通过公平性可以确保包容性，基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定，每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入，并使用RAG选择上下文演示来探索上下文学习的配置和过程。通过与不同LLM的实验比较，发现GPT-4在准确性和公平性方面的结果都优于其他模型。本研究是利用LLMs通过上下文学习实现预测任务公平性的早期尝试之一。

Feb, 2024

大型语言模型中的公平性: 一个分类调查

对公平语言模型进行了全面的综述，介绍了现有文献中关于公平语言模型的最新进展，讨论了导致公平语言模型偏见的因素，总结了评估偏见的度量标准和促进公平的现有算法，并提供了用于评估偏见的资源。

Mar, 2024

大型语言模型使用案例中评估偏见和公平性的可执行框架

该研究旨在为从业者提供技术指南，以评估大型语言模型（LLMs）使用情况中的偏见和公平风险。研究通过分类LLM偏见和公平风险，并形式化定义各种评估指标来提供决策框架，以确定特定LLM使用情况下应使用哪些指标。

Jul, 2024

大型语言模型中的公平性研究

本研究针对大型语言模型（LLMs）中的公平性问题进行探讨，突显其在处理边缘群体时可能导致歧视性结果的风险。通过分析偏见原因并总结评估偏见的策略及促进公平的算法，研究为公平LLMs的文献提供系统性的概述，并提出当前研究中面临的挑战和未解的问题，助力推动公平技术的发展。

Aug, 2024

大型语言模型的公平性研究：三小时概览

本文探讨大型语言模型（LLMs）中的公平性问题，尤其是它们对边缘化群体可能产生的歧视性结果。通过系统回顾最近的研究进展，文章提供了对偏见原因的分析，以及评估和促进公平性的方法，旨在提升LLMs的应用公平性并解决当前研究中的挑战。

Aug, 2024

大型语言模型中的偏见综合调查：现状与未来方向

本研究针对大型语言模型（LLMs）中的偏见问题进行全面调查，填补了当前研究中的空白。通过系统分类偏见的类型、来源和影响，并评估现有的缓解策略，本文提出了未来提升模型公平性和公正性的研究方向。研究结果为关注LLMs偏见的研究人员、从业者和政策制定者提供了重要资源。

Sep, 2024

多大型语言模型去偏见框架

该研究针对大型语言模型（LLMs）中存在的偏见问题，提出了一种新颖的多LLM去偏见框架。该框架引入了集中式和去中心化两种方法，显著减少了模型中的偏见，并在各社会群体中超越了基线方法，展现了良好的效果。

Sep, 2024