本文讨论了如何通过语言交流来解决人工智能中的价值对齐问题,探讨了这一主张对确保人工智能系统的价值对齐研究计划以及设计强有力的受益人工智能代理人的伦理影响。
Jul, 2022
本文介绍了 ETHICS 数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
提出一种新的 LMs 训练范式,让其可以从模拟社交互动中学习,从而使人工智能系统更好地符合社会规范和价值观。
May, 2023
通过道德图表法,本文研究如何合成不同的人类价值观输入,以对齐语言模型的行为,并通过在 500 名代表性美国人身上试验证明了其有效性。
Mar, 2024
探讨人工智能对齐问题所涉及的哲学问题,明确目标并提出合理的原则方法来解决技术和规范的问题,从而达成公平的人工智能对齐。
Jan, 2020
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI 系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深度学习的思想,解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点,并概述了达成共享概念的机遇和挑战。最后,我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。
Jan, 2024
本文介绍和演示了一种从自然语言文本中学习社会规范的计算方法,包括什么是正常和什么是规范的区别,为普通人培训 AI 系统有关社会规范提供了基础。
Jan, 2022
探索人类沟通策略以设计更加能理解和与用户意图对齐的人工智能系统,以实现人类中心的人工智能系统。
May, 2024
通过借鉴社会科学和人工智能界的广泛研究,我们提出了一套最大量、最大质量、最大相关度、最大方式、最大善意和最大透明度的法则,旨在描述有效的人工智能对话,并为评估和改进设计提供了规范指导。
我们认为,支持人工智能对话能够实现联合推理(即 “询问”),对于确保人工智能决策符合人类价值观和偏好非常重要。我们特别指出,基于逻辑的辩论和对话模型以及关注于劝说对话的传统方法应该改为关注于询问对话,并阐述了联合询问所带来的不同挑战。鉴于大规模语言模型(LLMs)性能的最新技术突破和预计在决策制定中它们的使用将增加,我们提供了一项研究路线图,以支持联合人工智能语言模型推理任务,并确保决策与价值观相一致的伦理关注。