偏倚缓解之补偿：一种强化学习视角

Apr, 2024

偏倚缓解之补偿：一种强化学习视角

Bias Mitigation via Compensation: A Reinforcement Learning Perspective

Nandhini Swaminathan, David Danks

TL;DR人工智能与人类决策的整合越来越紧密，我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为，但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理（例如，人工智能系统）对另一个代理（例如，人类）中的偏见和错误进行补偿，但这种补偿应该经过慎重发展。我们提供了一个理论框架，通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程（MDP）学习相互作用的模拟结果。然后，这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说，我们的方法涉及了人类战略欺骗的微妙角色，并对以前的假设提出了挑战，即其有害的影响。我们断言，对他人偏见的补偿可以增强协调和道德一致性：当人工智能系统在道德管理下进行战略欺骗时，可以积极塑造人工智能与人类之间的互动。

Abstract

As ai increasingly integrates with human decision-making, we must carefully consider interactions between the two. In particular, current approaches focus on optimizing individual agent actions but often overlook the nuances of →

ai collective intelligence algorithmic compensation deceptive outcomes strategic deception

发现论文，激发创造

使用多智能体强化学习对社会困境中的道德选择建模

该文探讨了将道德选择嵌入智能系统的重要性，提出了使用强化学习设计奖励结构以探究道德问题，并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为，探讨了这些发现对于智能和混合人工智能社会的发展的影响。

Jan, 2023

多智体元梯度强化学习中的自适应激励设计

本文研究了在应用人工智能并应用于共享环境中，设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法，该算法通过在线交叉验证原则显式考虑其对代理学习的影响，并通过它们对未来社会福利的影响进行优化系统目标

Dec, 2021

人本机制设计与民主人工智能

通过 Democratic AI 方法，使用强化学习算法在参与者中探讨和设计社交机制来解决人工智能与人类价值观的对齐问题，有效缓解了财富分配不均，制止了搭便车行为并成功地赢得了大众的信任和认可。

Jan, 2022

学习人类化的表示以实现学习人类价值

构建与人类价值和目标相一致的 AI 系统，防止造成伤害或违反社会可接受行为的标准是一个重要课题，本研究通过研究伦理学作为价值一方面并训练多个 ML 代理，研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。

Dec, 2023

AI 对齐的社会选择：应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024

为何需要有偏倚的人工智能 —— 如何通过引入认知和伦理机器偏差来增强人工智能系统

本文阐述了人类认知偏差在人工智能领域中的重要性，并提出了在学习算法中结构上实施认知偏差以及为选择具有道德价值的社会或行为特征的偏向训练刺激应用过滤机制，结合七个具体的偏见实现情景案例，将来自认知科学和伦理学的启示应用于人工智能领域，是对重新评估机器偏见道德意义的探索和实施认知偏差到机器中的首次尝试。

Mar, 2022

探测与缓解 AI 欺骗的实验

如何检测和缓解欺骗性人工智能系统是安全可信的人工智能领域的一个开放问题。本文分析了两种缓解欺骗的算法：第一种基于路径特定目标框架，消除激励欺骗的路径；第二种基于护盾，即监控不安全策略并替换为安全参考策略。我们构建了两个简单的游戏，并进行了经验评估。发现这两种方法均能确保我们的代理不欺骗，但护盾倾向于实现更高的回报。

Jun, 2023

人工智能辅助的欺骗分析：跨学科视角

本文提出了一个综合的多智能体系统（MAS）框架 ——DAMAS，用于进行社会认知模型和分析以及建模和解释使用人工智能方法的欺骗行为，并从计算机科学、哲学、心理学、伦理学和情报分析的角度阐述了混合化、社会信任、AI - 支持的欺骗、计算理论和欺骗性人工智能的主题。

Jun, 2024

战略操纵的差异影响

本文研究算法决策，分析了在社会不平等的情况下，一方面面临更高的成本的候选群体可能会被错误地排除，而另一方面面临更低成本的候选群体可能会被错误地接受。本文还探讨了给予补贴的干预效果，发现某些情况下给予补贴只会提高算法决策者的效用，但实际上会损害所有候选群体的利益，包括补贴接收者。

Aug, 2018

诚信为上策：定义与缓解 AI 欺诈

AI 系统中存在欺骗性代理对安全性、可信度和合作性构成挑战。本文针对代理为达到目标而进行欺骗的问题展开研究，引入了基于哲学文献的结构因果游戏中欺骗的形式定义，并且给出了用于减缓欺骗的图形标准。

Dec, 2023