大型模型中的伦理价值一致性解析

Oct, 2023

大型模型中的伦理价值一致性解析

Unpacking the Ethical Value Alignment in Big Models

Xiaoyuan Yi, Jing Yao, Xiting Wang, Xing Xie

TL;DR大模型在理解、生成和操作信息和内容方面极大地提升了人工智能的能力，但是随着这些模型越来越广泛地融入日常生活，它们固有的伦理价值观和潜在偏见给社会带来了无法预见的风险。本文概述了与大模型相关的风险和挑战，调查了现有的人工智能伦理准则，并研究了这些模型局限性带来的伦理影响。从规范伦理学的角度出发，我们提出了对最新规范准则的重新评估，强调学术界合作努力在建立统一而普适的人工智能伦理框架方面的重要性。此外，我们利用道德基础理论来调查当前主流大型语言模型的道德倾向，分析了现有的对齐算法，并概述了在对齐这些伦理价值观时遇到的独特挑战。为了应对这些挑战，我们引入了一个用于对齐大模型伦理价值观的新概念范式，并讨论了对齐准则、评估和方法的有前途的研究方向，代表了跨学科构建符合伦理要求的人工智能的初步步骤。

Abstract

big models have greatly advanced AI's ability to understand, generate, and manipulate information and content, enabling numerous applications. However, as these models become increasingly integrated into everyday life, their inherent →

发现论文，激发创造

AI对齐问题的多层框架

该研究探讨人工智能对齐问题，阐述了一个包含四个层次（个人、组织、国家和全球）的框架，分别考虑这些层次的价值观对人工智能的影响，以及这些价值观之间相互影响的方向，最后通过介绍AI内容审核这个案例，展示了该框架的应用。

Jan, 2023

AI中超越偏见和从众行为：走向个体代理和多元伦理

文章提出一种新方法，强调数据标注在维护机器伦理方面的重要作用，并探讨了伦理基础、系统架构以及伦理定义的问题；同时，该文章还指出，建立伦理人工智能是为了在公司和用户之间建立信任基础。

Feb, 2023

知情人工智能监管：通过伦理审核比较领先的LLM聊天机器人的伦理框架，评估道德推理和规范价值

通过进行基于伦理的审计，该研究评估了8个主要的商业和开源大型语言模型（包括GPT-4）的可解释性和可信度，比较不同模型在道德推理和伦理框架上的规范价值，以探索人工智能与人类的伦理对齐问题。研究结果表明，GPT-4表现出了一个复杂的伦理框架，但同时也显示出对特定文化规范存在明显偏见的规范框架和令人不安的威权主义倾向。

Jan, 2024

道义使命：对大型语言模型持续超对齐的需求

探讨实现AI系统中的终身超对齐所面临的挑战，特别是大型语言模型（LLMs）；超对齐是一个理论框架，旨在确保超级智能AI系统按照人类的价值观和目标行动；我们认为实现超对齐需要对当前LLM体系结构进行重大改变，因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性；通过分析两个不同的例子，我们阐明LLM面对训练数据的限制，无法与当代人类价值观和情景相契合；最后，本文探讨了解决和可能减轻这种对齐差异的潜在策略，提出了追求更适应和响应性的AI系统的路径。

Mar, 2024

人类价值是什么，我们如何使人工智能与之相吻合？

通过道德图表法，本文研究如何合成不同的人类价值观输入，以对齐语言模型的行为，并通过在500名代表性美国人身上试验证明了其有效性。

Mar, 2024

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了Llama 2外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

人工智能应该有多少道德？人工智能对低水平智能风险偏好的影响

本研究探讨了大型语言模型（LLMs）的风险偏好，以及将它们与人类伦理标准对齐的过程如何影响它们的经济决策。通过分析30个LLM，我们发现了从风险规避到风险追求的广泛固有风险特征。接着，我们探讨了不同类型的AI对齐如何改变这些基础风险偏好，发现对齐显著将LLMs转向风险规避，同时融合三个伦理维度的模型表现出最保守的投资行为。通过复制一项先前的研究，该研究使用LLMs根据公司收益电话会议记录预测公司投资，我们证明了尽管一些对齐可以提高投资预测的准确性，但过度对齐会导致过于谨慎的预测。这些发现表明，在金融决策中部署过度对齐的LLMs可能会导致严重的低投资情况。因此，在金融中应使用一种细腻的方法，平衡伦理对齐的程度与经济领域的具体要求。

Jun, 2024

MoralBench: LLMs的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

LocalValueBench：一个合作建立且可扩展的基准，用于评估大型语言模型的地方价值对齐和伦理安全

本研究解决了大型语言模型（LLMs）与地方价值和伦理标准对齐评估的不足，提出了一个名为LocalValueBench的可扩展基准，专注于评估其与澳大利亚价值观的一致性。通过新的伦理推理类型和审查方法，我们制定了全面的问题并进行了LLMs价值对齐的量化评估，揭示了现有模型的重要局限性和价值对齐的必要性。

Jul, 2024

大规模道德机器实验在大型语言模型中的应用

该研究针对大型语言模型在自动驾驶系统中的道德决策能力进行评估，填补了过往研究对模型道德判断的理解差距。通过分析51种不同的语言模型，本研究发现，超过100亿参数的模型在道德判断上与人类偏好较为一致，但模型更新未必能提升这一一致性，强调在设计自动化系统时需权衡判断质量与计算效率。

Nov, 2024