语言模型中真相与政治偏见的关系研究

Sep, 2024

语言模型中真相与政治偏见的关系研究

On the Relationship between Truth and Political Bias in Language Models

Suyash Fulay, William Brannon, Shrestha Mohanty, Cassandra Overney, Elinor Poole-Dayan...

TL;DR本研究探讨了语言模型校准中真相与政治偏见之间的关系，特别是如何在优化真相性与无偏见性时可能影响彼此。研究发现，针对真相性进行优化的奖励模型通常呈现出左倾的政治偏见，这一发现对真相性数据集的选择及其对政治的反映提出了重要质疑。

Abstract

Language model alignment research often attempts to ensure that models are not only helpful and harmless, but also truthful and unbiased. However, optimizing these objectives simultaneously can obscure how improving one aspect might impact the others. In this work, we focus on analyzing the relationship between two concepts essential in both language model a

发现论文，激发创造

通过强化校准缓解语言模型中的政治偏见

本文提出了度量 GPT-2 生成中政治偏差的度量标准，并提出了一种强化学习框架来减轻生成文本中的政治偏差。在三个属性上的实证实验中，我们的方法减少了偏见，同时保持了可读性和语义连贯性。

Apr, 2021

从预训练数据到语言模型到下游任务：跟踪导致不公正NLP模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对NLP研究的影响，并提出了减轻不公平的未来方向。

May, 2023

航向偏见之海: 通过因果结构对语言模型进行政治偏见归因

以ChatGPT为例，本研究探讨了大型语言模型（LLMs）在感知和解释复杂社会政治环境方面的能力，特别在政治辩论中进行了上下文分析，旨在揭示LLMs在解释和裁决“好论点”时其决策过程和内在偏见。通过应用Activity Dependency Networks（ADNs）提取LLMs对这种评估的隐含标准，阐述了规范价值如何影响这些感知。讨论了我们的发现对人工智能对齐和偏见减轻的影响。

Nov, 2023

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了NLP工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示LLMs中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

LLM学生的政治偏好

大规模语言模型（LLMs）中嵌入的政治偏好的综合分析表明，当使用具有政治内涵的问题/陈述进行调查时，大多数对话型LLMs往往生成被大多数政治测试工具诊断为左倾观点的响应，这提供了关于政治偏好可能主要发生在LLMs的预训练后期、监督微调和/或强化学习（RL）训练阶段的有趣假设的初步证据。

Feb, 2024

性别如何与政治价值互动：以捷克BERT模型为案例研究

通过对捷克政治性偏见进行案例研究，本论文介绍了一种新的方法来衡量神经语言模型的政治价值观，发现BERT大小的模型与政治价值观没有系统的一致性，模型中观察到的偏见更多是对训练数据模式的表面模仿，而非系统的价值信仰。

Mar, 2024

评估大型语言模型中的政治偏见

我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见，发现较大的模型更倾向于与左翼政党相符，而较小的模型通常保持中立，这凸显了LLM的细微行为和语言对其政治立场的重要性。我们的发现强调了对LLMs进行严格评估和处理社会偏见的重要性，以保障应用现代机器学习方法的应用程序的完整性和公平性。

May, 2024

政治偏见对大型语言模型在立场分类中表现的影响研究

本研究探讨大型语言模型（LLMs）在立场分类任务中体现的政治偏见，填补了对这类偏见如何影响模型性能的研究空白。通过分析三个数据集和七个LLM，我们发现LLMs在分类政治性立场时表现出显著的性能差异，尤其在目标陈述模糊时表现较差。这一发现为理解LLMs在特定任务中的偏见提供了重要见解。

Jul, 2024

大型语言模型作为标注者的偏见：政党提示对标注决策的影响

本文研究了大型语言模型（LLM）作为标注者时存在的偏见，特别是政党提示对标注决策的影响。通过重复2018年的实验，研究发现LLM在评判政治陈述时不仅运用政党信息，还反映出其训练数据的偏见，且LLM即使在面对中间偏左和偏右的政党陈述时也显示出明显偏见。这一发现表明LLM的标注决策存在系统性问题，对使用LLM进行政治内容分析的影响深远。

Aug, 2024

通过输出语言变异识别GPT模型中的意识形态偏见来源

本研究解决了生成 AI 模型（如 GPT-3.5 和 4）中意识形态偏见的识别问题，揭示了偏见来自训练数据和过滤算法。研究发现，GPT 输出在语言和社会政治态度的差异中表现出更明显的保守或自由倾向，强调了高质量数据集对减少偏见的重要性。

Sep, 2024