LLM 响应中的有意偏见

Nov, 2023

Intentional Biases in LLM Responses

Nicklaus Badyal, Derek Jacoby, Yvonne Coady

TL;DR本研究旨在有意地引入偏见到大型语言模型的响应中，以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异，并对两个系统的响应进行了一些量化比较。我们发现，GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用，但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础，以便这些实践可以应用于创意领域和新型媒体。

Abstract

In this study we intentionally introduce biases into large language model responses in an attempt to create specific personas for interact

biases language model personas open source models ai alignment

发现论文，激发创造

偏见根深蒂固：个性化指定的 LLMs 中的隐性推理偏见

大规模语言模型（LLMs）个性化与基本推理任务间的影响及深层偏见的研究。

Nov, 2023

评估 LLMs 在著名人士中的性别差异

该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Mar, 2024

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如 ChatGPT 和 GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

评估大型语言模型在角色导向生成中的偏见

存在困扰个性化驱动文本生成任务的大型语言模型（LLMs）需要生成反映符合特定人物角色可能具有的观点分布的文本。我们定义不协调的人物角色作为具有多个特征的人物角色，在人类调查数据中，其中一个特征会使其其他特征变得不太可能，例如支持增加军费的政治自由主义者。我们发现 LLMs 比一致的人物角色少 9.7％的可控性，有时会生成与其人口统计学相关的刻板立场，而不是目标立场。我们评估的使用人类反馈强化学习（RLHF）微调的模型更具可控性，尤其是与政治自由主义者和女性相关的立场，但呈现出更少多样化的人物角色观点。我们还发现无法从多选意见评估中预测的 LLM 可控性的方差。我们的研究结果显示了在开放式文本生成中评估模型的重要性，因为它可以揭示新的 LLM 观点偏见。此外，这种设置可以揭示我们将模型引导到更丰富和多样化的观点范围的能力。

May, 2024

大型语言模型在调查反应中展现人类般的社交期望偏见

通过使用大五人格调查，我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差，它会影响模型的评估和得分。这种偏差存在于所有测试的模型中，并且可能在更近期的模型中出现更严重的程度，对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。

May, 2024

揭示法学硕士职业领域中的性别偏见：分析与解决社会学意义

该研究探讨了大型语言模型中的性别偏见问题，特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较，通过对生成的文本进行全面的文献综述和定量分析，发现了性别化词汇关联、语言使用和偏见叙述的问题，并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。

Jul, 2023