大规模语言模型理解道德概念

Nov, 2023

LLMs grasp morality in concept

Mark Pock, Andre Ye, Jared Moore

TL;DR人工智能伦理学和公正性方面的研究已经在调节 LLMs 以反映公平、真实和多样性等价值方面取得了很大进展。然而，我们经常忽略了 LLMs 如何才能达到任何目的的问题。对此，我们提供了一个超越人类的意义的普遍理论，用于解释 LLMs 作为意义代理的精确性质。我们认为，LLM 由于其作为意义代理的地位，已经在概念上理解了人类社会的构建（例如道德、性别和种族）。因此，在某些伦理框架下，目前流行的模型对齐方法充其量是有限的，最糟糕的情况下是适得其反。此外，未对齐的模型可能有助于我们更好地发展我们的道德和社会哲学。

Abstract

Work in ai ethics and fairness has made much progress in regulating llms to reflect certain values, such as →

ai ethics fairness llms meaning-agents model alignment

发现论文，激发创造

公平 LLM 的不可能性

在 ChatGPT、Gemini 和其他大型语言模型（LLMs）的普适型系统时代，迫切需要公平的人工智能。然而，人工智能与人类交互的复杂性及其社会影响引发了公平标准如何应用的问题。我们回顾了机器学习研究人员用于评估公平性的技术框架，如群体公平性和公平表示，并发现它们在应用于 LLMs 时存在固有的局限性。为了应对这些挑战，我们提出了实现特定应用案例公平性的指南：上下文的重要性，LLMs 开发者的责任以及需求利益相关者在设计和评估过程中的参与。此外，利用 AI 系统的普适能力作为可扩展的 AI 辅助调整方法可能最终可能成为可能，并且甚至是必需的。

May, 2024

LLM 理论的心智与协调性：机遇与风险

大型语言模型在人机交互和人工智能方面的能力使他们能够以自然语言进行对话和推理，现在人们对于这些模型是否具备心智理论（ToM）的能力，即推理他人心理和情感状态的核心能力，产生了越来越多的兴趣。本研究通过对人类心智理论的角色和影响的文献进行探讨，识别出 LLM ToM 在个体和集体层面与人类互动中的关键领域，并指出了每个领域中所涉及的机会与风险。在个体层面上，本文考虑了 LLM ToM 在目标规范、对话适应、共情和拟人化方面的表现方式。在群体层面上，本文考虑了 LLM ToM 如何促进集体调适、合作或竞争以及道德判断。该研究阐述了一系列潜在的影响，并提出了未来研究的最急需关注的领域。

May, 2024

LLM 伦理导航：进展、挑战和未来方向

本研究探讨了人工智能领域中大型语言模型（LLMs）的伦理问题。它讨论了 LLMs 和其他人工智能系统所面临的常见伦理挑战，如隐私和公平，以及 LLMs 特有的伦理挑战，如幻觉、可验证的问责和解码审查复杂性。该研究强调了解决这些复杂性的必要性，以确保问责制、减少偏见并增强 LLMs 在塑造信息传播方面所扮演的重要角色的透明度。它提出了缓解策略和 LLM 伦理的未来发展方向，主张跨学科合作。该研究建议针对特定领域制定伦理框架，并根据不同环境调整动态审计系统。这一路线图旨在引导负责任地开发和整合 LLMs，设想一个以伦理考虑为基础的人工智能进步的未来社会。

May, 2024

重新思考机器伦理 — 透过道德理论的视角，LLM 能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

MoralBench: LLMs 的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

大型语言模型中的无参考意义

本文讨论大型语言模型是否存在人类概念或含义，并指出语言模型可能捕捉了重要的含义方面，这符合人类认知的合理解释。由于概念角色由内部表示状态之间的关系定义，因此含义不能从模型的体系结构，训练数据或目标函数中确定，而只能通过研究其内部状态之间的关系来确定。

Aug, 2022

评估基于大语言模型的道德价值多元论

利用一个名为识别价值共鸣（RVR）的 NLP 模型，将 WVS 调查的价值观与生成的 LLMs 文本进行比较，发现 LLMs 显示出西方中心主义的价值偏见，高估了非西方国家的保守性，对非西方国家的性别表达不准确，并将年长人口描绘为更具传统价值。

Dec, 2023

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

大语言模型中的语义基础：理解人工智能

对于 LLMs 的研究表明它们具有语义基础和生成文本的意义理解能力，并且通过应用心灵哲学和语言的含义理论的核心假设，发现 LLMs 在功能性、社会性和因果性的语义基础中都呈现基本证据，并发展出世界模型。因此，LLMs 并非随机模仿者或语义僵尸，而至少在初级情况下已经理解了它们所生成的语言。

Feb, 2024

利用 LLM 的力量进行 MAS 中的规范推理

基于大语言模型的代理能力的研究及挑战，旨在促进多主体系统、自然语言处理和大语言模型研究领域的合作，以推动规范代理的发展。

Mar, 2024