伦理人工智能的人类价值计算框架
本文介绍了ETHICS数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
在这篇论文中,作者从道德哲学和元伦理学的研究中引用论述,提出了在当前没有一套能度量AI系统“伦理性”的指标和测量方式的情况下,将AI系统的考虑转变为“价值观”而非“伦理学”,强调了价值观的相对性,这种思路会为开展AI系统的安全研究和有益研究提供新的方法。
Apr, 2022
本文提出了一种基于道德和社会心理学的新型人工道德代理范式,在其中将价值观灌输给代理以实现因环境而异的、与其他道德代理互动的目标,从而引导代理与人类的价值观保持一致。
Feb, 2023
解决人工智能对齐问题需要明确且可靠的价值取向;本文提出了从道德哲学中提取的五个核心、基础价值观,即生存、可持续的代际存在、社会、教育和真理,并表明这些价值观不仅为技术对齐工作提供了更清晰的方向,还作为一个框架来突出人工智能系统对获取和维持这些价值观的威胁和机遇。
Nov, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI开发者和伦理学家可以更好地设计和评估AI系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型,以明确计算地表示人类价值观,为基于人类价值观的人工智能推理提供了理论基础,并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力,不仅能解决价值观一致性问题,还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。
Feb, 2024
本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性,并提出了一个名为Dynamic Normativity的框架来解决通过学习范式对人工智能系统进行对齐的问题。
Jun, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024