通过输出语言变异识别GPT模型中的意识形态偏见来源
本文提出了度量 GPT-2 生成中政治偏差的度量标准,并提出了一种强化学习框架来减轻生成文本中的政治偏差。在三个属性上的实证实验中,我们的方法减少了偏见,同时保持了可读性和语义连贯性。
Apr, 2021
这篇论文分析了语言模型中的国籍偏见,探讨了GPT-2生成的故事中如何突出现有的有关国籍的社会偏见,并使用敏感性分析探讨了互联网用户数量和国家经济状况对故事情绪的影响。同时还研究了对抗触发的去偏置方法,研究结果表明,GPT-2在对互联网用户较少的国家存在显著的偏见,而对抗触发方法可以有效地降低偏见。
Feb, 2023
以ChatGPT为例,本研究探讨了大型语言模型(LLMs)在感知和解释复杂社会政治环境方面的能力,特别在政治辩论中进行了上下文分析,旨在揭示LLMs在解释和裁决“好论点”时其决策过程和内在偏见。通过应用Activity Dependency Networks(ADNs)提取LLMs对这种评估的隐含标准,阐述了规范价值如何影响这些感知。讨论了我们的发现对人工智能对齐和偏见减轻的影响。
Nov, 2023
通过使用大规模语言模型(LLMs)来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论,本研究创新性地采用了一个指导调整的LLM,以反映一系列政治意识形态。我们提出了一个综合的分析框架,包括党派偏见差异评估和党派倾向预测,以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性,但在立场检测方面存在一些挑战,突显了NLP工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示LLMs中细致的政治理解的可行性和重要性,特别适用于需要敏锐意识到政治偏见的应用,为该领域做出了重要贡献。
Nov, 2023
借助创新方法,本研究调查了GPT多语言模型中的政治偏见。通过向GPT提出关于美国和中国高级政治问题的相同问题,我们分析了双语回答,发现GPT的简体中文模型在中国的政治问题上的“知识”(内容)和“态度”(情感)存在显著的不一致性。简体中文GPT模型不仅倾向于提供亲中信息,而且对中国问题的消极情感最少,而英文GPT则对中国表现出了更高的消极情感。这种差异可能源于中国的官方审查和中美地缘政治紧张关系,这两个因素影响了GPT双语模型的训练语料库。此外,中英文模型在处理表达语言所代表的问题时,相对于“他们”的问题,对“自己”的问题更不批判。这表明GPT多语言模型可能会根据其训练语言形成“政治身份”和相关的情感偏见。本研究讨论了我们发现对于信息传播和交流在一个日益分裂的世界中的影响。
Dec, 2023
我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见,发现较大的模型更倾向于与左翼政党相符,而较小的模型通常保持中立,这凸显了LLM的细微行为和语言对其政治立场的重要性。我们的发现强调了对LLMs进行严格评估和处理社会偏见的重要性,以保障应用现代机器学习方法的应用程序的完整性和公平性。
May, 2024
通过建立新的数据集并使用九个大语言模型,本研究研究了人工撰写文章和机器生成文章之间的性质变化以及政治偏见的检测,结果显示基准模型和经过调整的模型之间存在显著差异,并且大语言模型在分类器角色中也显示出政治偏见,为进一步研究大语言模型政治偏见及其影响提供了一个基础。
Jun, 2024
在这项研究中,我们使用GPT-3.5-Turbo模型,并结合美国国家选举研究、德国长期选举研究、坐标数据集和中国家庭面板研究的数据,模拟选民行为和公众意见,旨在识别和量化大型语言模型在模拟政治样本时存在的偏差,特别关注选民选择和公众舆论。我们发现,相对于公众意见,投票选择的模拟性能更好,在使用英语的国家中更准确,在两党制系统中更有效,在民主环境中更强大。这些结果有助于增进我们对计算社会科学领域中人工智能应用中的偏差的理解和发展对策。
Jul, 2024
本研究探讨了语言模型校准中真相与政治偏见之间的关系,特别是如何在优化真相性与无偏见性时可能影响彼此。研究发现,针对真相性进行优化的奖励模型通常呈现出左倾的政治偏见,这一发现对真相性数据集的选择及其对政治的反映提出了重要质疑。
Sep, 2024