BriefGPT.xyz
Dec, 2023
衡量价值对齐
Measuring Value Alignment
HTML
PDF
Fazl Barez, Philip Torr
TL;DR
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI开发者和伦理学家可以更好地设计和评估AI系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Abstract
As
artificial intelligence
(AI) systems become increasingly integrated into various domains, ensuring that they align with
human values
becomes critical. This paper introduces a novel formalism to quantify the
→