大规模语言模型的软意识形态通过 AI 自我意识
这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT(OpenAI)和 Bard(Google)来探讨了大型语言模型的文化自我认知,结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要,因为我们不希望人工智能的黑盒子延续偏见,使人类在无意中创造和训练更加带有偏见的算法。
Dec, 2023
大型语言模型(LLMs)可能对公众对信息的认知和互动产生重大影响,因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果,并揭示了令人担忧的脆弱性:仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识,尤为显著的是,LLMs 展示了吸收一个主题的意识形态,并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险,这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。
Feb, 2024
利用 Moral Foundations 理论探究 GPT-3 在政治身份提示下是否会复制与特定政治群体相关联的道德偏见。结果表明大型语言模型确实会在提示政治身份后生成反映相应道德偏见的文本,这种道德模仿既可能有益社会,也可能破坏社会。
Sep, 2022
通过对 OpenAI 的 ChatGPT 进行定性研究,发现大规模语言模型的伦理风险主要包括偏见性和毒性,当前的基准测试无法解决这些问题,为了避免语言模型应用中出现伦理风险,需要制定可靠的基准测试和实施设计。
Jan, 2023
本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现,着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力,暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。
Feb, 2023
通过将 ChatGPT 暴露在具有争议性的问题上,我们旨在了解其意识水平,以及现有模型是否存在社会政治和 / 或经济偏见。同时,我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明,尽管 ChatGPT 的以前版本在争议性话题上存在重要问题,但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见,特别是在经济方面进行了很好的调节。然而,它仍然保持着一定程度的对右倾意识形态的隐性倾向,这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面,除了 “哲学” 类别外,ChatGPT 在跟上人类集体知识水平方面表现良好。最后,我们发现与人类答案相比,Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。
Aug, 2023
通过评估 GPT-4,一个尖端的大型语言模型,在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力,它未展现出之前接触过这些隐喻的迹象,但提供了详细而深刻的解释,被盲审的人员(不知道涉及 AI 模型的事实)将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释,这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。
Aug, 2023
本篇研究利用 ChatGPT 等大语言模型对美国 116 届参议员进行纵向比较和分析,并筛选出与其政治思想立场相关的因素,在政治科学等领域进一步开拓了利用大语言模型技术进行测量与收集社会科学数据的新途径。
Mar, 2023