学习人类化的表示以实现学习人类价值
本文介绍了ETHICS数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
通过训练一种双重奖励信号的智能体,其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励,我们介绍了一种价值对齐的强化学习方法,并展示了如何使用策略塑形技术平衡这两种奖励信号,以便产生既有效又更规范的策略,在三个互动的基于文本的世界中对其进行了测试。
Apr, 2021
通过修改实际推荐系统,实现多样化、公正、幸福、时间管理和事实准确度等各种人类价值;通过人工创建数据进行分类,解决一系列相关问题,但用户与其他利益相关者的参与度不高。相反,通过人工智能技术,从利益相关方进行值观的学习,识别四个主要措施:协作设计与操作、交互式价值学习和知情的审议性判断。
Jul, 2021
该研究探讨人工智能对齐问题,阐述了一个包含四个层次(个人、组织、国家和全球)的框架,分别考虑这些层次的价值观对人工智能的影响,以及这些价值观之间相互影响的方向,最后通过介绍AI内容审核这个案例,展示了该框架的应用。
Jan, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI开发者和伦理学家可以更好地设计和评估AI系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
使用逆强化学习作为方法,使得人工智能代理人能够基于人类观察和互动隐式地获得文化敏感的价值观体系。通过在线虚拟世界中观察不同文化群体的行为,我们的实验结果显示出代理人能够通过学习特定文化群体的行为获得反映该群体行为的利他特征,且这一学习到的价值体系可以推广到需要进行利他判断的新场景。这是首次演示出人工智能代理人具备持续从观察和与人类互动中学习价值观和规范的能力,从而与其所操作的文化环境相适应。
Dec, 2023
本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性,并提出了一个名为Dynamic Normativity的框架来解决通过学习范式对人工智能系统进行对齐的问题。
Jun, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024
本文解决了人工智能代理与人类多样化价值观对齐的挑战,提出了一种互动反思对话对齐的方法,可以在用户反思和定义其主观价值的过程中迭代学习个体价值定义。研究表明,该方法能够准确捕捉个人对价值对齐行为的独特理解,从而实现个性化对齐,并启发更具代表性和可解释的集体对齐策略。
Oct, 2024