集体宪政 AI：将语言模型与公众输入对齐

Jun, 2024

集体宪政 AI：将语言模型与公众输入对齐

Collective Constitutional AI: Aligning a Language Model with Public Input

Saffron Huang, Divya Siddarth, Liane Lovitt, Thomas I. Liao, Esin Durmus...

TL;DR使用 Collective Constitutional AI 方法，通过公众参与培训和评估，创建了第一个经集体数据微调的语言模型，与基线模型相比，在九个社会维度上展现出更低的偏见，同时在语言、数学和有益 - 无害评估上表现相当的性能。

Abstract

There is growing consensus that language model (LM) developers should not be the sole deciders of lm behavior, creating a need for methods that enable the broader public to collectively shape the behavior of LM s

language model collective constitutional ai public input lm behavior bias

发现论文，激发创造

公共宪政人工智能

为确保人工智能系统具备有效治理所需的合法性，本文提出了 “公众宪政人工智能” 方法，通过多元利益相关者参与制定人工智能发展的原则，形成 “人工智能宪法”，以实现人工智能治理与公众意愿的真正民主合法性，并建立 “人工智能法庭” 以发展 “人工智能判例法”，为在人工智能培训中落实宪政原则提供具体示例。该方法旨在通过民主审议过程来确立人工智能治理的基础，使自动化机构具备真正的民主合法性，应对不断增强的人工智能系统所带来的独特挑战，并确保其与公共利益保持一致。

Jun, 2024

IterAlign: 大型语言模型的迭代式结构对齐

使用迭代自对准框架 IterAlign，通过红队测试自动发现和纠正大型语言模型的弱点，提出了一个数据驱动的基于宪法的自对准方法，能够显著改善大型语言模型的对齐性能。

Mar, 2024

反向宪法人工智能：将偏好压缩为原则

反馈数据在微调和评估先进的 AI 模型中起着重要作用。本文提出了一种将现有的文本偏好数据解释为压缩任务的方法，即逆向宪法 AI（ICAI）问题。我们通过生成宪法来提取最佳宪法，以便大型语言模型（LLM）能够重建原始注释。生成的宪法具有许多潜在用途，可以帮助识别不可取的偏见，将反馈扩展到未见数据，或帮助调整 LLMs 以适应个人用户喜好。在合成反馈数据集、AlpacaEval 跨注释人类反馈数据集和众包 Chatbot Arena 数据集上证明了我们的方法。

Jun, 2024

协同构思中的增强集体智能：议程和挑战

研究探讨使用增强的集体智能的应用，结合人类和大型语言模型在协同创意中的表现，进一步介绍了一个名为 Polis 的实时集合工具，并总结出三个挑战以期设计并完成实验。

Mar, 2023

组织一种语言模型社会：结构和机制以促进集体智慧的提升

通过将大型语言模型（LLMs）组织成以社区为基础的结构，该论文介绍了一种变革性方法，旨在增强 LLMs 的集体智能和问题解决能力。本文研究了不同的组织模型 - 分层、扁平、动态和联邦，每种模型都具有协作人工智能系统的独特优势和挑战。在这些结构化社区中，LLMs 被设计为专门从事不同的认知任务，采用直接通信、投票系统和基于市场的方法等先进的交互机制，并动态调整其治理结构以满足不断变化的需求。这种社区的实施对于提高人工智能的问题解决能力具有重大潜力，因此有必要深入研究其伦理考虑、管理策略和可扩展性。本文旨在为未来研究奠定基础，主张在人工智能研究和应用中从孤立到协同的运行框架进行范式转变。

May, 2024

生成式 AI 投票：公平的集体选择对 LLM 偏见和不一致性具有韧性

通过对超过 50K 个大型语言模型 (GPT 3、GPT 3.5 和 Llama2) 在 81 个现实世界投票选举中的高逼真模拟，我们展示了不同大型语言模型在复杂的偏好选举格式中存在偏见和显著的不一致性，与简单且一致的多数选举相比。公平的投票聚合方法，如均等份额，被证明是双赢的：对人类来说更公平的投票结果与更公平的人工智能代表相结合。这一新颖的潜在关系对于在低投票率和由人工智能代表支持的进步场景中的民主韧性至关重要：通过恢复高度代表性且更为公平的投票结果，可以缓解棄權选民的问题。这些见解为科学家、政策制定者和公民提供了在解释和缓解民主创新中的人工智能风险方面的重要基础。

May, 2024

宪法人工智能的具体原则与普遍原则

人类反馈可以防止对话模型中明显有害的话语，但不能自动减轻隐蔽的问题行为，如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法，用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则的成功使我们问：模型能否仅通过一份书面原则学习普遍的道德行为？为了测试这一点，我们进行了实验，使用了一个大致规定为 “为人类做最好的事情” 的原则。我们发现，最大的对话模型可以从这份简短的宪法中概括出来，产生无害的助手，没有对特定动机（如权力）表示兴趣。因此，一个普遍原则可能在一定程度上避免对潜在有害行为进行长列表宪法的需要。然而，更详细的宪法仍然可以提高对特定类型伤害的细粒度控制。这表明，通用和特定原则都对安全引导人工智能具有价值。

Oct, 2023

演进 AI 集体以增强人类多样性和实现自我调节功能

大型语言模型根据其他人生成的文本来引导它们的行为。这种能力以及它们在在线环境中越来越普遍的存在预示着它们将有意或无意地 “编程” 彼此并形成新兴的人工智能主体性、关系和集体。在这里，我们呼吁研究界调查这些互动人工智能的 “类社会” 属性，以增加它们对人类社会和在线环境健康的回报并减少风险。我们使用一个简单的模型及其输出来说明这样的新兴分散型人工智能集体如何扩大人类多样性范围并降低在线毒性和反社交行为的风险。最后，我们讨论了人工智能自我调节的机会，并解决了与创建和维护分散型人工智能集体相关的道德问题和设计挑战。

Feb, 2024

大型语言模型与认知架构的协同集成 —— 鲁棒人工智能的探索性分析

本研究论文探讨了在构建表现出智能行为的人工智能代理中，将大型语言模型（LLMs）和认知架构（CAs）两个子领域进行整合的替代方案。在理论模型的指导下，并通过初步的实证数据支持，我们假设多样化的协同方法可以相互弥补它们各自的弱点和局限性，最终促进更健壮和复杂的人工智能系统的发展。此外，我们还讨论了每种方法所涉及的权衡和挑战。

Aug, 2023

AI 对齐的社会选择：应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024