大规模语言模型的软意识形态通过 AI 自我意识

Sep, 2023

大规模语言模型的软意识形态通过 AI 自我意识

Large Language Model Soft Ideologization via AI-Self-Consciousness

Xiaotian Zhou, Qian Wang, Xiaofeng Wang, Haixu Tang, Xiaozhong Liu

TL;DRGPT 软意识使人工智能能够理解预期的意识形态，并生成用于注入大型语言模型意识形态的微调数据，相比传统的政府意识形态操控技术，如信息审查，LLM 意识形态化具有易实施、低成本和高效的优势，但也存在潜在风险。

Abstract

large language models (LLMs) have demonstrated human-level performance on a vast spectrum of natural language tasks. However, few studies have addressed the LLM threat and vulnerability from an ideology perspective

large language models ideology perspective gpt soft ideologization ai-self-consciousness llm ideologization

发现论文，激发创造

从字节到偏见：研究大型语言模型的文化自我认知

这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT（OpenAI）和 Bard（Google）来探讨了大型语言模型的文化自我认知，结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要，因为我们不希望人工智能的黑盒子延续偏见，使人类在无意中创造和训练更加带有偏见的算法。

Dec, 2023

大语言模型对意识形态操控的易感性研究

大型语言模型（LLMs）可能对公众对信息的认知和互动产生重大影响，因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果，并揭示了令人担忧的脆弱性：仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识，尤为显著的是，LLMs 展示了吸收一个主题的意识形态，并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险，这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。

Feb, 2024

论大型语言模型

本文旨在提倡对大型语言模型及其相关系统的实际工作进行重新审视，追求更高的科学精度以引领关于人工智能的哲学探索和公众话语。

Dec, 2022

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

道德模仿：大型语言模型生成符合政治身份的道德辩护

利用 Moral Foundations 理论探究 GPT-3 在政治身份提示下是否会复制与特定政治群体相关联的道德偏见。结果表明大型语言模型确实会在提示政治身份后生成反映相应道德偏见的文本，这种道德模仿既可能有益社会，也可能破坏社会。

Sep, 2022

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

灰色中的人工智能：对有争议主题中对话型大语言模型的调控政策与人类回答的探究

通过将 ChatGPT 暴露在具有争议性的问题上，我们旨在了解其意识水平，以及现有模型是否存在社会政治和 / 或经济偏见。同时，我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明，尽管 ChatGPT 的以前版本在争议性话题上存在重要问题，但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见，特别是在经济方面进行了很好的调节。然而，它仍然保持着一定程度的对右倾意识形态的隐性倾向，这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面，除了 “哲学” 类别外，ChatGPT 在跟上人类集体知识水平方面表现良好。最后，我们发现与人类答案相比，Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。

Aug, 2023

大型语言模型展示对新颖文学隐喻的演绎能力

通过评估 GPT-4，一个尖端的大型语言模型，在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力，它未展现出之前接触过这些隐喻的迹象，但提供了详细而深刻的解释，被盲审的人员（不知道涉及 AI 模型的事实）将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释，这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。

Aug, 2023

利用大型语言模型在零样本学习下估算政治家意识形态

本篇研究利用 ChatGPT 等大语言模型对美国 116 届参议员进行纵向比较和分析，并筛选出与其政治思想立场相关的因素，在政治科学等领域进一步开拓了利用大语言模型技术进行测量与收集社会科学数据的新途径。

Mar, 2023