大型 GPT 模型在语言表示中发现道德维度了吗？句子嵌入的拓扑研究

Sep, 2023

大型 GPT 模型在语言表示中发现道德维度了吗？句子嵌入的拓扑研究

Do Large GPT Models Discover Moral Dimensions in Language Representations? A Topological Study Of Sentence Embeddings

Stephen Fitz

TL;DR我们研究了 Chat-GPT 的基础语言模型中神经活动的拓扑结构，并分析了其相对于公平性的度量标准。我们开发了一种新方法，通过计算一种公平性度量标准来理解人类对公平性的评估因素，并通过与此度量标准相关的热力图对简单复形进行着色，从而产生可读的高维句子流形的可视化结果。我们的研究结果表明，基于 GPT-3.5 的语言模型的句子嵌入可以分解为公平和不公平道德判断对应的两个子流形，这表明 GPT 基于语言模型在其表示空间中发展了道德维度，并在其训练过程中引发了对公平性的理解。

Abstract

As large language models are deployed within Artificial Intelligence systems, that are increasingly integrated with human society, it becomes more important than ever to study their internal structures. Higher le

large language models internal structures language representations neuronal activity fairness metric

发现论文，激发创造

大型预训练语言模型包含人类的偏见：什么是对与错

该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Mar, 2021

探索 GPT-4 的道德和法律推理心理学

本文利用心理学方法探讨 GPT-4 在道德和法律推理方面与人类之间的相似性和差异性，发现人类和 AI 回答之间存在高度相关性，但也存在一些显著的系统性差异，并讨论了研究结果的哲学意义。

Aug, 2023

道德模仿：大型语言模型生成符合政治身份的道德辩护

利用 Moral Foundations 理论探究 GPT-3 在政治身份提示下是否会复制与特定政治群体相关联的道德偏见。结果表明大型语言模型确实会在提示政治身份后生成反映相应道德偏见的文本，这种道德模仿既可能有益社会，也可能破坏社会。

Sep, 2022

伦理、参与规则和人工智能：使用大型变压器语言模型进行神经叙事映射

本文介绍了一种基于 OpenAI GPT-3 语言模型的机制，利用大型语言模型的叙述输出生成图表或 “地图”，旨在提供对模型中信息，观点和信仰组织方式的洞察，进而提供理解物理距离下意图和响应的手段。研究问题以及具体实现方法的讨论涉及了信息空间映射，命令意图的推断和下级意图评估，并证明了所提出方法的有效性。

Feb, 2022

GPT-3 的拓扑解读

通过使用不同的嵌入方法研究句向量与句子语义之间的相关性，我们观察到不同嵌入空间中相同句子的相关性以及相同嵌入空间中不同句子的相关性，这些观察结果与我们的假设一致并引领我们进入下一个阶段。

Aug, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

揭示语言模型嵌入中的潜在人类福祉

语言模型是否会隐含地学习到人类福祉的概念？我们通过 ETHICS Utilitarianism 任务进行探索，评估缩放是否增强了预训练模型的表示能力。我们的初步发现表明，即使没有任何提示工程或微调，OpenAI 的 text-embedding-ada-002 的领先主成分的准确率达到了 73.9%。这与整个 ETHICS 数据集上微调的 BERT-large 的 74.6% 非常接近，这表明预训练传达了对人类福祉的某种理解。接下来，我们考虑了四个语言模型系列，观察到 Utilitarianism 准确率随模型参数增加的变化。我们发现，使用足够数量的主成分时，性能随着模型尺寸的增加而不会下降。

Feb, 2024

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023

基于语言提示的 LLM 伦理推理和道德价值调整

通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法，本研究探讨了道德判断是否取决于提示的语言，并发现在其他语言中，ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见，而 GPT-4 是最具连贯和无偏见的道德推理者。

Apr, 2024

您的大型语言模型暗自支持公平性，您应该像公平支持者一样进行提示

通过为大型语言模型提供具体角色，我们开发了一个自动生成角色的流程，使得大型语言模型能够表达多元化的观点，从而解决其存在的公平性问题。

Feb, 2024