关键词value alignment problem
搜索结果 - 3
- 伦理人工智能的人类价值计算框架
通过社会科学根植的正式概念框架,系统、集成和跨学科地探究人类价值如何支持设计道德人工智能,从而解决价值对齐问题和其他相关的挑战,如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。
- AI 安全中的临界性概念
本文提出了一种更有效的解决 AI 安全中的价值同步问题的解决方案,其方法是利用关键指标来测量动作的重要性,只在关键动作时需要操作者进行干预,操作者在处理其他工作时也能保证安全。
- 合作式逆强化学习
本文提出了以合作式逆强化学习(CIRL)为基础的价值对齐问题的正式定义,其中机器人和人类是两个代理人,目标是最大化人类的奖励函数,该问题可以转化为 POMDP 问题,我们还提出了一种近似的 CIRL 算法。