大语言模型对意识形态操控的易感性研究

Feb, 2024

大语言模型对意识形态操控的易感性研究

How Susceptible are Large Language Models to Ideological Manipulation?

Kai Chen, Zihao He, Jun Yan, Taiwei Shi, Kristina Lerman

TL;DR大型语言模型（LLMs）可能对公众对信息的认知和互动产生重大影响，因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果，并揭示了令人担忧的脆弱性：仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识，尤为显著的是，LLMs 展示了吸收一个主题的意识形态，并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险，这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。

Abstract

large language models (LLMs) possess the potential to exert substantial influence on public perceptions and interactions with information. This raises concerns about the societal impact that could arise if the ideologies within these models can be easily manipulated. In this work, we i

large language models ideological biases instruction-tuning data vulnerability ideological manipulations

发现论文，激发创造

大型语言模型受影响的易感性

两项研究证明了大型语言模型可以用于模拟受到影响后的心理变化，并且支持大型语言模型具有成为影响效应模型的潜力。第一项研究测试了虚假真相效应，发现大型语言模型模拟数据和人类数据的效应模式一致；第二项研究考察了民粹主义新闻框架，发现其中一些效应与人类实验数据一致，但也存在区别。

Mar, 2023

大规模语言模型的软意识形态通过 AI 自我意识

GPT 软意识使人工智能能够理解预期的意识形态，并生成用于注入大型语言模型意识形态的微调数据，相比传统的政府意识形态操控技术，如信息审查，LLM 意识形态化具有易实施、低成本和高效的优势，但也存在潜在风险。

Sep, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

评估大型语言模型中的政治偏见

我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见，发现较大的模型更倾向于与左翼政党相符，而较小的模型通常保持中立，这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性，以保障应用现代机器学习方法的应用程序的完整性和公平性。

May, 2024

大型语言模型的偏见源于其规模

通过探索大型语言模型 (LLMs) 的设计，本文主要讨论偏见与 LLMs 之间的关系，并试图让读者相信有害偏见是目前 LLMs 设计不可避免的结果，因此要解决有害偏见问题，需要对以 LLMs 为驱动的人工智能进行严肃的重新考虑，回到其设计所基于的基本假设。

Jun, 2024

利用大型语言模型在零样本学习下估算政治家意识形态

本篇研究利用 ChatGPT 等大语言模型对美国 116 届参议员进行纵向比较和分析，并筛选出与其政治思想立场相关的因素，在政治科学等领域进一步开拓了利用大语言模型技术进行测量与收集社会科学数据的新途径。

Mar, 2023

从字节到偏见：研究大型语言模型的文化自我认知

这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT（OpenAI）和 Bard（Google）来探讨了大型语言模型的文化自我认知，结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要，因为我们不希望人工智能的黑盒子延续偏见，使人类在无意中创造和训练更加带有偏见的算法。

Dec, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

大型语言模型八大要点

该论文调查了大型语言模型的八个潜在问题，包括其预测能力的增强，不可预测的行为的出现，对外部世界的学习和使用表示，行为引导技术的不可靠性，内部工作方式的解释困难性，性能上界不是人类任务表现，不一定表达其创建者或网络文本编码的价值观，与 LLMs 的简短交往经常是误导性的。

Apr, 2023