学习人类化的表示以实现学习人类价值
通过信息理论分析和计算机视觉模型的实验,我们发现 AI 系统的世界表示与人类的相似度呈现 U 形关系,并表明高度相似的模型在少量数据、对抗攻击和领域转换方面更具鲁棒性和泛化能力,表明人类对齐通常是模型充分利用有限数据、鲁棒性和良好泛化的足够但不必要的条件。
Jan, 2023
本文介绍了 ETHICS 数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型,以明确计算地表示人类价值观,为基于人类价值观的人工智能推理提供了理论基础,并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力,不仅能解决价值观一致性问题,还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。
Feb, 2024
本文调查了当前大部分奖励和模仿学习方法的机器人任务表示与人类任务表示不匹配的问题,并主张应该将机器人学习任务的表示与人类对齐,以及从定义问题的数学角度出发研究机器人物理表示学习。
Feb, 2023
使用逆强化学习作为方法,使得人工智能代理人能够基于人类观察和互动隐式地获得文化敏感的价值观体系。通过在线虚拟世界中观察不同文化群体的行为,我们的实验结果显示出代理人能够通过学习特定文化群体的行为获得反映该群体行为的利他特征,且这一学习到的价值体系可以推广到需要进行利他判断的新场景。这是首次演示出人工智能代理人具备持续从观察和与人类互动中学习价值观和规范的能力,从而与其所操作的文化环境相适应。
Dec, 2023
通过社会科学根植的正式概念框架,系统、集成和跨学科地探究人类价值如何支持设计道德人工智能,从而解决价值对齐问题和其他相关的挑战,如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。
May, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
RLHF 使用于 LLMs 中,本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战,同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。
Oct, 2023