人类价值是什么,我们如何使人工智能与之相吻合?
本文介绍了ETHICS数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
该研究探讨人工智能对齐问题,阐述了一个包含四个层次(个人、组织、国家和全球)的框架,分别考虑这些层次的价值观对人工智能的影响,以及这些价值观之间相互影响的方向,最后通过介绍AI内容审核这个案例,展示了该框架的应用。
Jan, 2023
通过社会科学根植的正式概念框架,系统、集成和跨学科地探究人类价值如何支持设计道德人工智能,从而解决价值对齐问题和其他相关的挑战,如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。
May, 2023
通过综合调查现有工作的不同对齐目标并追踪其演变路径,本文揭示了从基本能力到价值取向的目标转变,表明内在人类价值可能是提升大型语言模型对齐目标的关键,进一步讨论了实现此内在价值对齐的挑战,并提供了一系列可用资源以支持未来对大型模型对齐的研究。
Aug, 2023
构建与人类价值和目标相一致的AI系统,防止造成伤害或违反社会可接受行为的标准是一个重要课题,本研究通过研究伦理学作为价值一方面并训练多个ML代理,研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。
Dec, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI开发者和伦理学家可以更好地设计和评估AI系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型,以明确计算地表示人类价值观,为基于人类价值观的人工智能推理提供了理论基础,并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力,不仅能解决价值观一致性问题,还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。
Feb, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对2019年至2024年1月间发表的400多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024
本研究解决了生成AI系统在人类价值对齐方面的挑战,尤其是在考虑到多种人类价值及其潜在权衡时。提出的“多重人类价值对齐调色板”(MAP)方法通过将对齐问题公式化为一个优化任务,以用户定义的约束来确定人类价值目标,并成功实现了多元价值的系统对齐,展现了强大的实证性能。
Oct, 2024