公共宪政人工智能
使用 Collective Constitutional AI 方法,通过公众参与培训和评估,创建了第一个经集体数据微调的语言模型,与基线模型相比,在九个社会维度上展现出更低的偏见,同时在语言、数学和有益 - 无害评估上表现相当的性能。
Jun, 2024
人类反馈可以防止对话模型中明显有害的话语,但不能自动减轻隐蔽的问题行为,如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法,用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则的成功使我们问:模型能否仅通过一份书面原则学习普遍的道德行为?为了测试这一点,我们进行了实验,使用了一个大致规定为 “为人类做最好的事情” 的原则。我们发现,最大的对话模型可以从这份简短的宪法中概括出来,产生无害的助手,没有对特定动机(如权力)表示兴趣。因此,一个普遍原则可能在一定程度上避免对潜在有害行为进行长列表宪法的需要。然而,更详细的宪法仍然可以提高对特定类型伤害的细粒度控制。这表明,通用和特定原则都对安全引导人工智能具有价值。
Oct, 2023
本文分析了人工智能治理的技术解决方案,提出了一个分类目录,分为四个领域:探索伦理困境、个体伦理决策框架、集体伦理决策框架和人工智能交互中的伦理问题,并讨论了面向成功将伦理人工智能系统整合到人类社会的未来研究方向。
Dec, 2018
我们的跨学科研究调查了美国法律如何有效应对生成式人工智能对人类价值观的挑战。通过对专家研讨会中构思的多种假设场景进行分析,我们发现现行法律框架在保护自主权,隐私,尊严,多样性,平等和身体 / 心理健康等基本价值观方面存在显著的差距和不确定性。宪法和民事权利似乎不足以提供对 AI 生成的歧视性输出的足够保护。此外,即使我们排除第 230 条规定的责任保护,由于人工智能系统的错综复杂和模糊不清的特点,要证明诽谤和产品责任的因果关系是一项具有挑战性的事业。为了应对生成式人工智能带来的独特和不可预见的威胁,我们倡导法律框架的演进,以认识新的威胁并向行业利益相关者提供主动的、可审计的指导方针。解决这些问题需要深入的跨学科合作,以确定伤害、价值观和缓解策略。
Aug, 2023
本文在社会科学与技术学科之间使用概念映射方法建立了三种不同的语义域 (a) 操作域,(b) 认识域,(c) 规范域,并引入了研究 AI 系统的三个新概念:操作适应性、认识完整性和规范重要性来研究 AI 在政府中的应用,并将其作为政府 AI 概念分类法的维度之一,为推动跨学科对话和促进公共行政重塑提供帮助。
Oct, 2022
以非专家的公众参与为基础,通过收集使用案例、评估风险、揭示 AI 发展的张力等方式,引入了 Particip-AI 框架以实现对 AI 的民主治理和风险评估,研究发现参与者的回应强调了个人生活和社会应用,显示了多样化的危害与专家评估的互补价值,还发现不发展使用案例的感知影响了参与者是否认为 AI 使用案例应该开发,并凸显了普通用户对技术解决主义的担忧。
Mar, 2024
通过制定一套规则或原则,通过自我改善代替人工标记,使用有监督学习和强化学习构建的 “宪法 AI”,能够更精确地控制 AI 行为并提高透明度和性能。
Dec, 2022
人工智能、自动化系统、大型语言模型、权力关系和哲学素材是本篇论文的关键词,并通过探讨权力概念、AI 对权力的影响以及解决权力问题的方法,强调了权力正当性和程序合法性的重要性。
Apr, 2024
人工智能发展和治理过程中,公众参与以捕捉多元视角和促进公平实践与结果的有责任的人工智能追求至关重要。通过运用文化共识理论对美国的一个全国代表性调查数据集,我们识别了有关负责任人工智能的信念和态度,为开发人员和政策制定者提供了重要的洞察,使他们能够更有效地考虑个体差异和群体文化视角,并处理公众的关切。
Jan, 2024