宪法人工智能的具体原则与普遍原则

Oct, 2023

宪法人工智能的具体原则与普遍原则

Specific versus General Principles for Constitutional AI

Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan...

TL;DR人类反馈可以防止对话模型中明显有害的话语，但不能自动减轻隐蔽的问题行为，如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法，用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则的成功使我们问：模型能否仅通过一份书面原则学习普遍的道德行为？为了测试这一点，我们进行了实验，使用了一个大致规定为 “为人类做最好的事情” 的原则。我们发现，最大的对话模型可以从这份简短的宪法中概括出来，产生无害的助手，没有对特定动机（如权力）表示兴趣。因此，一个普遍原则可能在一定程度上避免对潜在有害行为进行长列表宪法的需要。然而，更详细的宪法仍然可以提高对特定类型伤害的细粒度控制。这表明，通用和特定原则都对安全引导人工智能具有价值。

Abstract

human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. constitutional ai

human feedback constitutional ai ethical behaviors dialogue models specific principles

发现论文，激发创造

宪法人工智能：来自人工智能反馈的无害性

通过制定一套规则或原则，通过自我改善代替人工标记，使用有监督学习和强化学习构建的 “宪法 AI”，能够更精确地控制 AI 行为并提高透明度和性能。

Dec, 2022

公共宪政人工智能

为确保人工智能系统具备有效治理所需的合法性，本文提出了 “公众宪政人工智能” 方法，通过多元利益相关者参与制定人工智能发展的原则，形成 “人工智能宪法”，以实现人工智能治理与公众意愿的真正民主合法性，并建立 “人工智能法庭” 以发展 “人工智能判例法”，为在人工智能培训中落实宪政原则提供具体示例。该方法旨在通过民主审议过程来确立人工智能治理的基础，使自动化机构具备真正的民主合法性，应对不断增强的人工智能系统所带来的独特挑战，并确保其与公共利益保持一致。

Jun, 2024

仅靠原则无法保证道德人工智能

AI 伦理是学术和政策圈子中一个全球性的讨论话题，近期 meta 分析表明， AI 伦理已经收敛于一组与医学伦理四项经典原则非常相似的原则，但是这种原则取向在 AI 的发展和治理方面可能不会像医学那样成功，因为它们之间存在四个显著的不同点。

Jun, 2019

以负人权为基础的长期 AI 安全和监管

通过汲取法律的灵感，未来的 AI 系统需要结合一般性原则和负面人权来建立国际监管体系，为技术安全约束打下基础。

Aug, 2022

构建科学研究中生成型人工智能的道德准则

发展分析和缓解策略，提供了一个初始框架来理解模型限制、尊重隐私、保密和版权、避免抄袭和政策违规、确保应用程序提供整体利益，并透明可重现地使用人工智能，以保护研究的完整性。

Jan, 2024

面向生成 AI 应用的通用设计原则

介绍了基于 HCI 和 AI 社区的人工智能协作的最新研究，提出了七个面向多个结果和潜在危害的生成式人工智能设计原则。

Jan, 2023

反向宪法人工智能：将偏好压缩为原则

反馈数据在微调和评估先进的 AI 模型中起着重要作用。本文提出了一种将现有的文本偏好数据解释为压缩任务的方法，即逆向宪法 AI（ICAI）问题。我们通过生成宪法来提取最佳宪法，以便大型语言模型（LLM）能够重建原始注释。生成的宪法具有许多潜在用途，可以帮助识别不可取的偏见，将反馈扩展到未见数据，或帮助调整 LLMs 以适应个人用户喜好。在合成反馈数据集、AlpacaEval 跨注释人类反馈数据集和众包 Chatbot Arena 数据集上证明了我们的方法。

Jun, 2024

AI 对齐的社会选择：应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024

人工智能：全球道德准则的地理分布

研究表明，围绕着五个伦理原则（透明度、正义与公平、非恶意行为、责任和隐私），出现了全球一致性的道德人工智能共识，提出了相关的指导原则和技术标准，同时应该充分融合伦理分析和实施策略的努力。

Jun, 2019

集体宪政 AI：将语言模型与公众输入对齐

使用 Collective Constitutional AI 方法，通过公众参与培训和评估，创建了第一个经集体数据微调的语言模型，与基线模型相比，在九个社会维度上展现出更低的偏见，同时在语言、数学和有益 - 无害评估上表现相当的性能。

Jun, 2024