AI对齐问题的多层框架
解决人工智能对齐问题需要明确且可靠的价值取向;本文提出了从道德哲学中提取的五个核心、基础价值观,即生存、可持续的代际存在、社会、教育和真理,并表明这些价值观不仅为技术对齐工作提供了更清晰的方向,还作为一个框架来突出人工智能系统对获取和维持这些价值观的威胁和机遇。
Nov, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI开发者和伦理学家可以更好地设计和评估AI系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深度学习的思想,解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点,并概述了达成共享概念的机遇和挑战。最后,我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。
Jan, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对2019年至2024年1月间发表的400多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性,并提出了一个名为Dynamic Normativity的框架来解决通过学习范式对人工智能系统进行对齐的问题。
Jun, 2024
本研究针对传统人工智能对齐方法所面临的问题进行探讨,指出偏好并不足以全面体现人类价值观。论文提出了一种新的对齐框架,强调人工智能系统应依据适当的社会角色规范标准进行对齐,以促进各利益相关者之间的协商,进而服务于多样化的目标,减少潜在的伤害。
Aug, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024