Apr, 2024

偏倚缓解之补偿:一种强化学习视角

TL;DR人工智能与人类决策的整合越来越紧密,我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为,但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理(例如,人工智能系统)对另一个代理(例如,人类)中的偏见和错误进行补偿,但这种补偿应该经过慎重发展。我们提供了一个理论框架,通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程(MDP)学习相互作用的模拟结果。然后,这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说,我们的方法涉及了人类战略欺骗的微妙角色,并对以前的假设提出了挑战,即其有害的影响。我们断言,对他人偏见的补偿可以增强协调和道德一致性:当人工智能系统在道德管理下进行战略欺骗时,可以积极塑造人工智能与人类之间的互动。