算法学习人类价值观与非理性行为的危险

Feb, 2022

算法学习人类价值观与非理性行为的危险

The dangers in algorithms learning humans' values and irrationalities

Rebecca Gorman, Stuart Armstrong

TL;DR研究分析了开发学习人类偏见和政策的人工智能的危险，并构建了一个推荐系统模型，毕竟对于 AI 来说，了解人类的错误看法比了解人类价值更加危险，因此直接学习人类价值会更为优先。

Abstract

For an artificial intelligence (AI) to be aligned with human values (or human preferences), it must first learn those values. AI systems that are trained on →

artificial intelligence human values human behavior policy biases

发现论文，激发创造

BIASeD: 将非理性引入自动化系统设计

本文主张人工智能系统需要模拟、理解、甚至复制人类的认知偏差，在人机协作中扮演更加重要的角色，并提出了关于人类认知偏差和人工智能之间相互作用的研究议程及三个感兴趣的广泛领域，并为具有更好对人类偏见的人工智能系统的设计方向提出了研究方向。

Oct, 2022

AI 通过逆向强化学习隐式学习人类价值体系的文化敏感道德机器

使用逆强化学习作为方法，使得人工智能代理人能够基于人类观察和互动隐式地获得文化敏感的价值观体系。通过在线虚拟世界中观察不同文化群体的行为，我们的实验结果显示出代理人能够通过学习特定文化群体的行为获得反映该群体行为的利他特征，且这一学习到的价值体系可以推广到需要进行利他判断的新场景。这是首次演示出人工智能代理人具备持续从观察和与人类互动中学习价值观和规范的能力，从而与其所操作的文化环境相适应。

Dec, 2023

伦理人工智能的人类价值计算框架

通过社会科学根植的正式概念框架，系统、集成和跨学科地探究人类价值如何支持设计道德人工智能，从而解决价值对齐问题和其他相关的挑战，如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。

May, 2023

学习人类化的表示以实现学习人类价值

构建与人类价值和目标相一致的 AI 系统，防止造成伤害或违反社会可接受行为的标准是一个重要课题，本研究通过研究伦理学作为价值一方面并训练多个 ML 代理，研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。

Dec, 2023

AI 推理中的人类价值建模

构建与人类价值观相符的人工智能系统是当前面临的重要挑战之一。本研究提出了一个形式化模型，以明确计算地表示人类价值观，为基于人类价值观的人工智能推理提供了理论基础，并在实际应用中验证了该模型的适用性。通过这种自动推理人类价值观的能力，不仅能解决价值观一致性问题，还有助于设计支持个人和社区做出更明智、与价值观相符的决策的人工智能系统。

Feb, 2024

将基于人工智能的决策制定与非理性人类行为调和：一种量子概率方法

使用量子理论的数学框架，建立一种建模框架来解释和预测认知偏差，在智能系统与人类互动中实现更好的人机交互。

Aug, 2018

人工智能与知识崩溃问题

通过降低获取知识成本，人工智能可能对公众理解产生逆效应，最终导致知识塌缩，损害创新和人类理解与文化的丰富性。我们提供一个简单模型来研究学习者或创新者选择使用传统方法还是依赖打折的人工智能辅助过程的条件，并发现人工智能生成内容的打折将使公众信仰与真实事实相差 2.3 倍。最后，我们考虑进一步的研究方向来对抗这种结果。

Apr, 2024

为何需要有偏倚的人工智能 —— 如何通过引入认知和伦理机器偏差来增强人工智能系统

本文阐述了人类认知偏差在人工智能领域中的重要性，并提出了在学习算法中结构上实施认知偏差以及为选择具有道德价值的社会或行为特征的偏向训练刺激应用过滤机制，结合七个具体的偏见实现情景案例，将来自认知科学和伦理学的启示应用于人工智能领域，是对重新评估机器偏见道德意义的探索和实施认知偏差到机器中的首次尝试。

Mar, 2022

多智能体系统中的人类价值观

本文提供一个源于社会科学、能够形式化表达价值的形式化表述，并使用此表述明确了实现 AI 价值对齐的关键挑战和研究路线图。

May, 2023

人工智能中的文化不协调

本文介绍了 AI (人工智能) 系统如何模拟人类行为以及 AI 技术与全球文化差异相交互时出现的问题，提出对语言和视觉技术中不同文化依赖性和不一致性的策略和可能性进行思考。

Nov, 2022