航向偏见之海：通过因果结构对语言模型进行政治偏见归因

Nov, 2023

航向偏见之海：通过因果结构对语言模型进行政治偏见归因

Navigating the Ocean of Biases: Political Bias Attribution in Language Models via Causal Structures

David F. Jenny, Yann Billeter, Mrinmaya Sachan, Bernhard Schölkopf, Zhijing Jin

TL;DR以 ChatGPT 为例，本研究探讨了大型语言模型（LLMs）在感知和解释复杂社会政治环境方面的能力，特别在政治辩论中进行了上下文分析，旨在揭示 LLMs 在解释和裁决 “好论点” 时其决策过程和内在偏见。通过应用 Activity Dependency Networks（ADNs）提取 LLMs 对这种评估的隐含标准，阐述了规范价值如何影响这些感知。讨论了我们的发现对人工智能对齐和偏见减轻的影响。

Abstract

The rapid advancement of large language models (LLMs) has sparked intense debate regarding their ability to perceive and interpret complex

large language models perceive interpret decision-making processes inherent biases

发现论文，激发创造

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

评估大型语言模型中的政治偏见

我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见，发现较大的模型更倾向于与左翼政党相符，而较小的模型通常保持中立，这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性，以保障应用现代机器学习方法的应用程序的完整性和公平性。

May, 2024

量化大型语言模型中的政治偏见：言论内容及言辞方式调查

我们提出通过分析 LLMs 生成内容中关于政治问题的内容和风格来衡量政治偏见。我们的提议旨在提供 LLMs 生成的政治偏见的细致和可解释的度量方法，以向用户提供透明度。我们的研究关注不同的政治问题，如生殖权和气候变化，并从内容和风格两个方面测量政治偏见，以展示我们的框架的可扩展性和可解释性。

Mar, 2024

通过强化校准缓解语言模型中的政治偏见

本文提出了度量 GPT-2 生成中政治偏差的度量标准，并提出了一种强化学习框架来减轻生成文本中的政治偏差。在三个属性上的实证实验中，我们的方法减少了偏见，同时保持了可读性和语义连贯性。

Apr, 2021

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023

从字节到偏见：研究大型语言模型的文化自我认知

这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT（OpenAI）和 Bard（Google）来探讨了大型语言模型的文化自我认知，结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要，因为我们不希望人工智能的黑盒子延续偏见，使人类在无意中创造和训练更加带有偏见的算法。

Dec, 2023

以多样的政治观点对齐大型语言模型

通过使用 100,000 个瑞士国会候选人的评论，将大型语言模型与不同政治观点对齐，从而克服 ChatGPT 等商业模型的政治偏见，并提出了使用这种模型生成多个观点的平衡概述的方法。

Jun, 2024

利用现实世界和生成的新闻文章语料库量化生成式媒体偏见

通过建立新的数据集并使用九个大语言模型，本研究研究了人工撰写文章和机器生成文章之间的性质变化以及政治偏见的检测，结果显示基准模型和经过调整的模型之间存在显著差异，并且大语言模型在分类器角色中也显示出政治偏见，为进一步研究大语言模型政治偏见及其影响提供了一个基础。

Jun, 2024

大型语言模型的政治立场调查

利用定量框架和流程系统地调查大型语言模型的政治取向，研究结果显示在八个极化话题中，当用户查询涉及职业、种族或政治取向时，大型语言模型倾向于提供与自由派或左倾观点更为接近的回答，而不是保守派或右倾观点。为了避免这些模型提供政治化的回答，用户在构建查询时应谨慎，并选择中立的提示语言。

Mar, 2024

辩论中 LLM 仿真的系统偏差

近期自然语言处理的进展，特别是大型语言模型（LLMs）的出现，为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而，LLMs 是复杂的统计学习器，缺乏直接的演绎规则，因此容易产生意想不到的行为。本研究突出了 LLMs 在模拟人类互动方面的局限性，特别关注 LLMs 在模拟政治辩论方面的能力。我们的发现表明，尽管被指示从特定的政治角度进行辩论，LLM 代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离，似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果，该方法使我们能够操纵 LLM 内的偏见，并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性，以开发帮助代理克服这些偏见的方法，是创造更现实模拟的关键一步。

Feb, 2024