心智对口：关于测量大型语言模型中社会偏见的重新判断不一致性

Aug, 2023

心智对口：关于测量大型语言模型中社会偏见的重新判断不一致性

Mind vs. Mouth: On Measuring Re-judge Inconsistency of Social Bias in Large Language Models

Yachao Zhao, Bo Wang, Dongming Zhao, Kun Huang, Yan Wang...

TL;DR近期的研究表明，预训练的大型语言模型（LLMs）具有类似于人类观察到的认知结构，促使研究人员探究 LLMs 的认知方面。本文聚焦于心理学中的一个独特两级认知结构，即显性社会偏见和隐性社会偏见。我们提出了一个两阶段的方法，并在 LLMs 中发现了一个并行现象，即社会偏见中的 “重新判断不一致”。实验调查 ChatGPT 和 GPT-4 关于心理学中常见的性别偏见，证实了重新判断不一致的高度稳定性。这一发现可能表明，随着 LLMs 的能力增强，不同的认知结构也会出现。因此，利用心理学理论可以提供对 LLMs 中显性和隐性结构表达的潜在机制的深入洞察。

Abstract

Recent researches indicate that pre-trained large language models (LLMs) possess cognitive constructs similar to those observed in humans, prompting researchers to investigate the cognitive aspects of LLMs. This

pre-trained large language models cognitive constructs explicit social bias implicit social bias re-judge inconsistency

发现论文，激发创造

直接问 LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024

在显式无偏的大型语言模型中测量隐性偏见

通过心理学启发的 LLM 暗示联想测试偏差和 LLM 决策偏差等两项偏差测量方法，揭示了大规模语言模型中普遍存在的人类化刻板印象偏差，以及对决策任务中的微妙歧视进行检测。

Feb, 2024

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

人类还是 LLM 作为法官？对判断偏见的研究

采用人类和大型语言模型作为评判者（即人类和 LLM 评判者）来评估现有 LLM 的性能已经引起了关注。然而，这种方法同时引入了人类和 LLM 评判者的潜在偏见，对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。我们整理了一个包含 142 个样本的数据集，涉及修订后的布鲁姆分类法，并进行了数千次人类和 LLM 评估。结果表明，人类和 LLM 评判者在不同程度上都容易受到扰动，并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对 LLM 评判者进行了攻击。我们希望我们的工作能让社区意识到人类和 LLM 评判者在面对扰动时的脆弱性，以及开发健壮评估系统的紧迫性。

Feb, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

从字节到偏见：研究大型语言模型的文化自我认知

这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT（OpenAI）和 Bard（Google）来探讨了大型语言模型的文化自我认知，结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要，因为我们不希望人工智能的黑盒子延续偏见，使人类在无意中创造和训练更加带有偏见的算法。

Dec, 2023

LLM 认知判断与人类不同

GPT-3 和 ChatGPT 在认知科学文献中对有限数据归纳推理任务的能力被调查，结果表明这些模型的认知判断并非类似于人类。

Jul, 2023

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023