价值指南针:人类与人工智能对齐的基本价值框架
本文介绍了ETHICS数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
该研究探讨人工智能对齐问题,阐述了一个包含四个层次(个人、组织、国家和全球)的框架,分别考虑这些层次的价值观对人工智能的影响,以及这些价值观之间相互影响的方向,最后通过介绍AI内容审核这个案例,展示了该框架的应用。
Jan, 2023
通过社会科学根植的正式概念框架,系统、集成和跨学科地探究人类价值如何支持设计道德人工智能,从而解决价值对齐问题和其他相关的挑战,如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。
May, 2023
人类价值观和价值多元论对于人类决策至关重要。为了更好地反映价值多元论,我们介绍了ValuePrism数据集和Kaleido模型,它们可以生成、解释和评估特定语境下人类价值观、权利和责任的相关性和支持程度。我们的工作希望明确人类决策背后的隐含价值观,并引导AI系统做出更符合这些价值观的决策。
Sep, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI开发者和伦理学家可以更好地设计和评估AI系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型,以明确计算地表示人类价值观,为基于人类价值观的人工智能推理提供了理论基础,并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力,不仅能解决价值观一致性问题,还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。
Feb, 2024
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对2019年至2024年1月间发表的400多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本研究针对传统人工智能对齐方法所面临的问题进行探讨,指出偏好并不足以全面体现人类价值观。论文提出了一种新的对齐框架,强调人工智能系统应依据适当的社会角色规范标准进行对齐,以促进各利益相关者之间的协商,进而服务于多样化的目标,减少潜在的伤害。
Aug, 2024