算法学习人类价值观与非理性行为的危险
本文主张人工智能系统需要模拟、理解、甚至复制人类的认知偏差,在人机协作中扮演更加重要的角色,并提出了关于人类认知偏差和人工智能之间相互作用的研究议程及三个感兴趣的广泛领域,并为具有更好对人类偏见的人工智能系统的设计方向提出了研究方向。
Oct, 2022
使用逆强化学习作为方法,使得人工智能代理人能够基于人类观察和互动隐式地获得文化敏感的价值观体系。通过在线虚拟世界中观察不同文化群体的行为,我们的实验结果显示出代理人能够通过学习特定文化群体的行为获得反映该群体行为的利他特征,且这一学习到的价值体系可以推广到需要进行利他判断的新场景。这是首次演示出人工智能代理人具备持续从观察和与人类互动中学习价值观和规范的能力,从而与其所操作的文化环境相适应。
Dec, 2023
通过社会科学根植的正式概念框架,系统、集成和跨学科地探究人类价值如何支持设计道德人工智能,从而解决价值对齐问题和其他相关的挑战,如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。
May, 2023
构建与人类价值和目标相一致的 AI 系统,防止造成伤害或违反社会可接受行为的标准是一个重要课题,本研究通过研究伦理学作为价值一方面并训练多个 ML 代理,研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。
Dec, 2023
构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型,以明确计算地表示人类价值观,为基于人类价值观的人工智能推理提供了理论基础,并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力,不仅能解决价值观一致性问题,还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。
Feb, 2024
通过降低获取知识成本,人工智能可能对公众理解产生逆效应,最终导致知识塌缩,损害创新和人类理解与文化的丰富性。我们提供一个简单模型来研究学习者或创新者选择使用传统方法还是依赖打折的人工智能辅助过程的条件,并发现人工智能生成内容的打折将使公众信仰与真实事实相差 2.3 倍。最后,我们考虑进一步的研究方向来对抗这种结果。
Apr, 2024
本文阐述了人类认知偏差在人工智能领域中的重要性,并提出了在学习算法中结构上实施认知偏差以及为选择具有道德价值的社会或行为特征的偏向训练刺激应用过滤机制,结合七个具体的偏见实现情景案例,将来自认知科学和伦理学的启示应用于人工智能领域,是对重新评估机器偏见道德意义的探索和实施认知偏差到机器中的首次尝试。
Mar, 2022
本文介绍了 AI (人工智能) 系统如何模拟人类行为以及 AI 技术与全球文化差异相交互时出现的问题,提出对语言和视觉技术中不同文化依赖性和不一致性的策略和可能性进行思考。
Nov, 2022