LLMs 的高风险决策中的认知偏差

Feb, 2024

Cognitive Bias in High-Stakes Decision-Making with LLMs

Jessica Echterhoff, Yao Liu, Abeer Alessa, Julian McAuley, Zexue He

TL;DR我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Abstract

large language models (LLMs) offer significant potential as tools to support an expanding range of decision-making tasks. However, given their training on human (created) data, LLMs can inherit both societal biases against protected groups, as well as be subject to →

large language models cognitive bias biasbuster high-stakes decision-making debiasing

发现论文，激发创造

应对医疗语言模型中的认知偏差

这项研究开发了 BiasMedQA 作为一种新的基准测试方法，评估大型语言模型在医学任务中受认知偏差影响的程度，并发现 GPT-4 对偏差具有较强的韧性，而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大，这凸显了在医学语言模型开发中需致力于偏差缓解，以实现在医疗保健领域更安全、可靠的应用。

Feb, 2024

临床决策支持中 LLMs 应用的偏倚模式：一项综合研究

通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析，我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差，而大小模型并不一定比通用模型更具偏见，经过设计决策的提示方式对社会偏差也有影响，研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。

Apr, 2024

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

驾驭 LLMs 朝向无偏响应：一个因果引导的去偏框架

使用因果理解指导设计提示机制的去偏置语言模型框架，能有效减少大型语言模型中的社会偏见。

Mar, 2024

辩论中 LLM 仿真的系统偏差

近期自然语言处理的进展，特别是大型语言模型（LLMs）的出现，为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而，LLMs 是复杂的统计学习器，缺乏直接的演绎规则，因此容易产生意想不到的行为。本研究突出了 LLMs 在模拟人类互动方面的局限性，特别关注 LLMs 在模拟政治辩论方面的能力。我们的发现表明，尽管被指示从特定的政治角度进行辩论，LLM 代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离，似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果，该方法使我们能够操纵 LLM 内的偏见，并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性，以开发帮助代理克服这些偏见的方法，是创造更现实模拟的关键一步。

Feb, 2024

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

语言模型在问题解决中表现出与人类学习者相同的认知偏差吗？

运用大型语言模型（LLMs）作为认知模型的兴趣日益增加，本研究通过研究 LLMs 在解决算术问题时与儿童的认知偏差，得出结论：LLMs 在文本理解和解决方案规划步骤中表现出类似人类的偏差，但在解决方案执行过程中没有类似的偏差。

Jan, 2024

LLM 是否表现出类似于人类的回答偏向？一项调查设计案例研究

大型语言模型在代表人类进行主观标签任务方面的潜力和限制

Nov, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

基于 LLMs 的贝叶斯统计建模

利用贝叶斯统计模型，研究了大型语言模型（LLMs）在人类行为预测方面的类人特性，发现 LLMs 不能准确捕获人类数据的各项细节，但在聚合和条件水平的预测方面可以有效适配人类数据，显示出某些不同的方法可以使其得到充分的分布式预测。

Jun, 2024