集体宪政 AI:将语言模型与公众输入对齐
为确保人工智能系统具备有效治理所需的合法性,本文提出了 “公众宪政人工智能” 方法,通过多元利益相关者参与制定人工智能发展的原则,形成 “人工智能宪法”,以实现人工智能治理与公众意愿的真正民主合法性,并建立 “人工智能法庭” 以发展 “人工智能判例法”,为在人工智能培训中落实宪政原则提供具体示例。该方法旨在通过民主审议过程来确立人工智能治理的基础,使自动化机构具备真正的民主合法性,应对不断增强的人工智能系统所带来的独特挑战,并确保其与公共利益保持一致。
Jun, 2024
使用迭代自对准框架 IterAlign,通过红队测试自动发现和纠正大型语言模型的弱点,提出了一个数据驱动的基于宪法的自对准方法,能够显著改善大型语言模型的对齐性能。
Mar, 2024
反馈数据在微调和评估先进的 AI 模型中起着重要作用。本文提出了一种将现有的文本偏好数据解释为压缩任务的方法,即逆向宪法 AI(ICAI)问题。我们通过生成宪法来提取最佳宪法,以便大型语言模型(LLM)能够重建原始注释。生成的宪法具有许多潜在用途,可以帮助识别不可取的偏见,将反馈扩展到未见数据,或帮助调整 LLMs 以适应个人用户喜好。在合成反馈数据集、AlpacaEval 跨注释人类反馈数据集和众包 Chatbot Arena 数据集上证明了我们的方法。
Jun, 2024
研究探讨使用增强的集体智能的应用,结合人类和大型语言模型在协同创意中的表现,进一步介绍了一个名为 Polis 的实时集合工具,并总结出三个挑战以期设计并完成实验。
Mar, 2023
通过将大型语言模型(LLMs)组织成以社区为基础的结构,该论文介绍了一种变革性方法,旨在增强 LLMs 的集体智能和问题解决能力。本文研究了不同的组织模型 - 分层、扁平、动态和联邦,每种模型都具有协作人工智能系统的独特优势和挑战。在这些结构化社区中,LLMs 被设计为专门从事不同的认知任务,采用直接通信、投票系统和基于市场的方法等先进的交互机制,并动态调整其治理结构以满足不断变化的需求。这种社区的实施对于提高人工智能的问题解决能力具有重大潜力,因此有必要深入研究其伦理考虑、管理策略和可扩展性。本文旨在为未来研究奠定基础,主张在人工智能研究和应用中从孤立到协同的运行框架进行范式转变。
May, 2024
通过对超过 50K 个大型语言模型 (GPT 3、GPT 3.5 和 Llama2) 在 81 个现实世界投票选举中的高逼真模拟,我们展示了不同大型语言模型在复杂的偏好选举格式中存在偏见和显著的不一致性,与简单且一致的多数选举相比。公平的投票聚合方法,如均等份额,被证明是双赢的:对人类来说更公平的投票结果与更公平的人工智能代表相结合。这一新颖的潜在关系对于在低投票率和由人工智能代表支持的进步场景中的民主韧性至关重要:通过恢复高度代表性且更为公平的投票结果,可以缓解棄權选民的问题。这些见解为科学家、政策制定者和公民提供了在解释和缓解民主创新中的人工智能风险方面的重要基础。
May, 2024
人类反馈可以防止对话模型中明显有害的话语,但不能自动减轻隐蔽的问题行为,如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法,用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则的成功使我们问:模型能否仅通过一份书面原则学习普遍的道德行为?为了测试这一点,我们进行了实验,使用了一个大致规定为 “为人类做最好的事情” 的原则。我们发现,最大的对话模型可以从这份简短的宪法中概括出来,产生无害的助手,没有对特定动机(如权力)表示兴趣。因此,一个普遍原则可能在一定程度上避免对潜在有害行为进行长列表宪法的需要。然而,更详细的宪法仍然可以提高对特定类型伤害的细粒度控制。这表明,通用和特定原则都对安全引导人工智能具有价值。
Oct, 2023
大型语言模型根据其他人生成的文本来引导它们的行为。这种能力以及它们在在线环境中越来越普遍的存在预示着它们将有意或无意地 “编程” 彼此并形成新兴的人工智能主体性、关系和集体。在这里,我们呼吁研究界调查这些互动人工智能的 “类社会” 属性,以增加它们对人类社会和在线环境健康的回报并减少风险。我们使用一个简单的模型及其输出来说明这样的新兴分散型人工智能集体如何扩大人类多样性范围并降低在线毒性和反社交行为的风险。最后,我们讨论了人工智能自我调节的机会,并解决了与创建和维护分散型人工智能集体相关的道德问题和设计挑战。
Feb, 2024
本研究论文探讨了在构建表现出智能行为的人工智能代理中,将大型语言模型(LLMs)和认知架构(CAs)两个子领域进行整合的替代方案。在理论模型的指导下,并通过初步的实证数据支持,我们假设多样化的协同方法可以相互弥补它们各自的弱点和局限性,最终促进更健壮和复杂的人工智能系统的发展。此外,我们还讨论了每种方法所涉及的权衡和挑战。
Aug, 2023
基金会模型的微调是为了避免不安全或有问题的行为,而利用人类反馈进行强化学习或采用宪法人工智能的方法,通过社会选择来处理潜在的人类意见分歧并影响模型的行为。
Apr, 2024