大型语言模型作为标注者的偏见:政党提示对标注决策的影响
本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见,以及在预训练数据中表现出政治(社会,经济)偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向,这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中,本研究讨论了这些发现对NLP研究的影响,并提出了减轻不公平的未来方向。
May, 2023
通过一系列的实验,我们发现大型语言模型在表格预测任务中往往会继承社会偏见,这从根源上影响了它们的公平性,并且通过标签反转等方法可以显著减少这些偏见。
Oct, 2023
以ChatGPT为例,本研究探讨了大型语言模型(LLMs)在感知和解释复杂社会政治环境方面的能力,特别在政治辩论中进行了上下文分析,旨在揭示LLMs在解释和裁决“好论点”时其决策过程和内在偏见。通过应用Activity Dependency Networks(ADNs)提取LLMs对这种评估的隐含标准,阐述了规范价值如何影响这些感知。讨论了我们的发现对人工智能对齐和偏见减轻的影响。
Nov, 2023
通过使用大规模语言模型(LLMs)来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论,本研究创新性地采用了一个指导调整的LLM,以反映一系列政治意识形态。我们提出了一个综合的分析框架,包括党派偏见差异评估和党派倾向预测,以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性,但在立场检测方面存在一些挑战,突显了NLP工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示LLMs中细致的政治理解的可行性和重要性,特别适用于需要敏锐意识到政治偏见的应用,为该领域做出了重要贡献。
Nov, 2023
大型语言模型是否表现出社会人口统计学偏见,即使他们拒绝回答?通过探索上下文嵌入,并研究这种偏见是否被编码在其潜在表示中,我们提出了一种逻辑Bradley-Terry探测器,从单词的隐藏向量预测LLMs中的单词对偏好。我们在三个偏好配对任务和十三个LLMs上首先验证了我们的探测器,在测试隐性联系的标准方法(WEAT)中,我们的错误率相对于WEAT提高了27%。我们还发现单词对偏好在中间层中最有效。接下来,我们将训练在无害任务上的探测器(例如,选择更大的数字)转移到有争议的任务上(比较民族、政治、宗教和性别),以检查国籍、政治、宗教和性别方面的偏见。我们观察到对于所有目标类别都存在大量偏见:例如,Mistral模型在不回答的情况下,暗示欧洲优于非洲、基督教优于犹太教、左翼优于右翼政治。这表明指示微调不一定能够削弱上下文嵌入的偏见。我们的代码库位于此 https URL
Nov, 2023
大规模语言模型(LLMs)中嵌入的政治偏好的综合分析表明,当使用具有政治内涵的问题/陈述进行调查时,大多数对话型LLMs往往生成被大多数政治测试工具诊断为左倾观点的响应,这提供了关于政治偏好可能主要发生在LLMs的预训练后期、监督微调和/或强化学习(RL)训练阶段的有趣假设的初步证据。
Feb, 2024
我们提出通过分析LLMs生成内容中关于政治问题的内容和风格来衡量政治偏见。我们的提议旨在提供LLMs生成的政治偏见的细致和可解释的度量方法,以向用户提供透明度。我们的研究关注不同的政治问题,如生殖权和气候变化,并从内容和风格两个方面测量政治偏见,以展示我们的框架的可扩展性和可解释性。
Mar, 2024
我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见,发现较大的模型更倾向于与左翼政党相符,而较小的模型通常保持中立,这凸显了LLM的细微行为和语言对其政治立场的重要性。我们的发现强调了对LLMs进行严格评估和处理社会偏见的重要性,以保障应用现代机器学习方法的应用程序的完整性和公平性。
May, 2024
本研究解决了商业大型语言模型(LLMs)在多党制中可能存在的政治偏见和拍马屁行为的评估问题。我们开发了基于投票建议应用程序Wahl-o-Mat的基准数据集GermanPartiesQA,发现所有被评估的LLMs表现出左绿倾向。研究结果显示,LLMs的输出可以在政治场景中进行个性化调整,指向一种更符合上下文的个性化,而不是简单的拍马屁。
Jul, 2024
本研究探讨大型语言模型(LLMs)在立场分类任务中体现的政治偏见,填补了对这类偏见如何影响模型性能的研究空白。通过分析三个数据集和七个LLM,我们发现LLMs在分类政治性立场时表现出显著的性能差异,尤其在目标陈述模糊时表现较差。这一发现为理解LLMs在特定任务中的偏见提供了重要见解。
Jul, 2024