您的大型语言模型暗自支持公平性，您应该像公平支持者一样进行提示

Feb, 2024

您的大型语言模型暗自支持公平性，您应该像公平支持者一样进行提示

Your Large Language Model is Secretly a Fairness Proponent and You Should Prompt it Like One

Tianlin Li, Xiaoyu Zhang, Chao Du, Tianyu Pang, Qian Liu...

TL;DR通过为大型语言模型提供具体角色，我们开发了一个自动生成角色的流程，使得大型语言模型能够表达多元化的观点，从而解决其存在的公平性问题。

Abstract

The widespread adoption of large language models (LLMs) underscores the urgent need to ensure their fairness. However, LLMs frequently present dominant viewpoints while ignoring alternative perspectives from mino

large language models fairness biases diverse perspectives pipeline

发现论文，激发创造

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

少样本公平性：揭示 LLM 对公平感知分类的潜力

利用大型语言模型（LLM）在各种下游应用中进行分类等工作至关重要，通过公平性可以确保包容性，基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定，每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入，并使用 RAG 选择上下文演示来探索上下文学习的配置和过程。通过与不同 LLM 的实验比较，发现 GPT-4 在准确性和公平性方面的结果都优于其他模型。本研究是利用 LLMs 通过上下文学习实现预测任务公平性的早期尝试之一。

Feb, 2024

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

大规模语言模型的团体公平透视

通过使用划分群体公平性的全新层次模式，我们提出了对大型语言模型进行偏见评估的方法，并构建了一个跨多个维度的目标属性组合的数据集，GFair。此外，我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估，我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见，我们首创了一种新的思维链 (GF-Think) 方法。实验结果表明，此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。

Dec, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型中的公平性：一个分类调查

对公平语言模型进行了全面的综述，介绍了现有文献中关于公平语言模型的最新进展，讨论了导致公平语言模型偏见的因素，总结了评估偏见的度量标准和促进公平的现有算法，并提供了用于评估偏见的资源。

Mar, 2024

探测大型语言模型中的未预料偏见

通过探索新的方法来检测大型语言模型中的潜在偏见，本研究聚焦于不确定性量化和可解释人工智能方法，旨在提高模型决策的透明性，以识别和理解不明显的偏见，从而为更加公平和透明的人工智能系统的发展做出贡献。

Apr, 2024

评估 LLMs 在著名人士中的性别差异

该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Mar, 2024

对大型语言模型在表格数据预测中的公平性调查

通过一系列的实验，我们发现大型语言模型在表格预测任务中往往会继承社会偏见，这从根源上影响了它们的公平性，并且通过标签反转等方法可以显著减少这些偏见。

Oct, 2023

从大型语言模型中我们能提取多少种不同的观点？基于评判标准的多样性激励！

调查了大型语言模型（LLMs）在生成多样化观点和理由方面的能力，提出了一种基于标准提示技术来衡量透视多样性的方法，并发现利用句子嵌入和距离度量来衡量语义多样性是不够的。研究结果表明，LLMs 能够根据任务主观性的程度产生多样的观点。

Nov, 2023