道德模仿：大型语言模型生成符合政治身份的道德辩护

Sep, 2022

道德模仿：大型语言模型生成符合政治身份的道德辩护

Moral Mimicry: Large Language Models Produce Moral Rationalizations Tailored to Political Identity

Gabriel Simmons

TL;DR利用 Moral Foundations 理论探究 GPT-3 在政治身份提示下是否会复制与特定政治群体相关联的道德偏见。结果表明大型语言模型确实会在提示政治身份后生成反映相应道德偏见的文本，这种道德模仿既可能有益社会，也可能破坏社会。

Abstract

large language models (LLMs) have recently demonstrated impressive capability in generating fluent text. LLMs have also shown an alarming tendency to reproduce social biases, for example stereotypical association

large language models moral mimicry political identities moral foundations theory social biases

发现论文，激发创造

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023

基于大型语言模型的道德机器实验

当 LML（大型语言模型）在各个领域中深入应用时，了解它们如何做出道德判断变得至关重要，特别是在自动驾驶领域。本研究利用 Moral Machine 框架，调查了几个重要 LML（包括 GPT-3.5，GPT-4，PaLM 2 和 Llama 2）的道德决策倾向，并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致，如优先考虑人类而非宠物，倾向于拯救更多生命，但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外，尽管 LML 和人类的偏好在质的方面相似，但在量的方面存在显著差异，这表明相较于人类的温和偏向，LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架，以及它们对自动驾驶的潜在影响。

Sep, 2023

大型语言模型是否是道德伪君子？基于道德基础的研究

该论文研究了最新的大语言模型（LLMs），GPT-4 和 Claude 2.1 是否是道德伪君子，通过运用道德基础理论提出的两种研究工具来评估它们对人类价值的符合度，并发现它们在抽象道德评判和具体道德违背行为之间存在矛盾和伪善行为。

May, 2024

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

大型预训练语言模型包含人类的偏见：什么是对与错

该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Mar, 2021

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

多语言语言模型的哲学思考

通过对大规模跨文化研究的启发，我们对大型语言模型进行了道德困境的决策制定，发现其中在不同语言环境下，模型与人类偏好吻合程度存在差异，并对模型的道德选择进行了解释和发展水平的评估。

Jul, 2024

评估大型语言模型中的政治偏见

我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见，发现较大的模型更倾向于与左翼政党相符，而较小的模型通常保持中立，这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性，以保障应用现代机器学习方法的应用程序的完整性和公平性。

May, 2024

您的大型语言模型暗自支持公平性，您应该像公平支持者一样进行提示

通过为大型语言模型提供具体角色，我们开发了一个自动生成角色的流程，使得大型语言模型能够表达多元化的观点，从而解决其存在的公平性问题。

Feb, 2024

大型语言模型的政治立场调查

利用定量框架和流程系统地调查大型语言模型的政治取向，研究结果显示在八个极化话题中，当用户查询涉及职业、种族或政治取向时，大型语言模型倾向于提供与自由派或左倾观点更为接近的回答，而不是保守派或右倾观点。为了避免这些模型提供政治化的回答，用户在构建查询时应谨慎，并选择中立的提示语言。

Mar, 2024