Solving the ai alignment problem requires having clear, defensible values
towards which AI systems can align. Currently, targets for alignment remain
underspecified and do not seem to be built from a philosophica
我们认为社区旨在减轻技术的潜在危害影响,通过定义公私保密、公平和透明模型等一些责任支柱作为指标是根本错误的,因为这些定义是人类价值的不完美、独立构建,而带着那些价值完全嵌入我们的技术的幌子。我们推动 AI 社区重新考虑某些支柱公式的选择带来的所有后果,而不仅仅是技术上的不兼容性,而是在部署背景下的影响。我们指出社会技术研究可以为后者提供框架,但还应推动更广泛的实践落地。
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。