大型语言模型中的认知偏差：谨慎乐观与反康德改良主义

Nov, 2023

大型语言模型中的认知偏差：谨慎乐观与反康德改良主义

Cognitive bias in large language models: Cautious optimism meets anti-Panglossian meliorism

David Thorstad

TL;DR大型语言模型的偏见与认知偏差的评估：对现有模型中偏见的普遍性持谨慎乐观态度，并承认存在一些真实的偏见，并努力减少其存在。同时，讨论了人类认知偏见的理性以及非代表性数据在误导模型偏见方面的哲学含义。

Abstract

Traditional discussions of bias in large language models focus on a conception of bias closely tied to unfairness, especially as affecting

bias large language models cognitive biases prevalence unrepresentative data

发现论文，激发创造

在大型语言模型推理中平衡理性偏差和认知偏见：并非所有偏见均不好

通过研究大型语言模型（LLMs）的决策过程中的偏见，本研究揭示了不同偏见在决策过程中的微妙作用，并发现合适的平衡可以提高模型性能、改善决策准确性。我们引入了启发式调节和弃权选项的概念，并通过我们的研究结果表明，恰当缩放的偏见检查能够使 LLMs 的决策更符合人类的推理，提高其可靠性和值得信赖性，从而为未来的改进提供了新的策略。

Jun, 2024

大型语言模型的偏见源于其规模

通过探索大型语言模型 (LLMs) 的设计，本文主要讨论偏见与 LLMs 之间的关系，并试图让读者相信有害偏见是目前 LLMs 设计不可避免的结果，因此要解决有害偏见问题，需要对以 LLMs 为驱动的人工智能进行严肃的重新考虑，回到其设计所基于的基本假设。

Jun, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型中的 (非) 理性和认知偏差

大型语言模型在合理推理中显示出人类的偏见和不合理行为，但这种不合理行为与人类不同，且存在额外的回答不一致性。

Feb, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

将大型语言模型转化为认知模型

本研究旨在探讨大型语言模型是否能够成为认知模型，并发现通过在心理实验数据上微调这些模型，它们能够提供准确的人类行为表示，甚至在两个决策制定领域中表现比传统的认知模型更好。此外，我们展示了它们的表示含有模拟个体受试者行为所需的信息，并演示了在多个任务上进行微调的能力使得大型模型能够预测以前从未见过的任务中人类行为，这表明预先训练的大型模型可以被改进为通用认知模型，从而开辟了颠覆认知心理学和行为科学的新研究方向。

Jun, 2023

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

受指导的偏见：经过指导调节的语言模型呈现出应急认知偏差

通过检验三种认知偏见（假象效应、确定性效应和信仰偏误）在经过指导调优的语言模型中的存在程度，我们的研究提供了证据表明，这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见，进一步突出了这些偏见存在于各种模型中的事实，特别是那些经过指导调优的模型，如 Flan-T5，GPT3.5 和 GPT4，这一研究对认识指导调优的语言模型中的认知偏见是至关重要的，从而对更可靠、无偏的语言模型的发展具有重要意义。

Aug, 2023

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

构建数字语言鸿沟的桥梁

AI 技术中的语言偏见是研究和开发方法论不公正的结果，我们提出了一项新的倡议，旨在通过技术设计和方法论，与当地社区进行眼球级的合作，减少语言偏见。

Jul, 2023