游戏与机制设计中的执行性预测

Aug, 2024

Performative Prediction on Games and Mechanism Design

António Góis, Mehrnaz Mofakhami, Fernando P. Santos, Simon Lacoste-Julien, Gauthier Gidel

TL;DR本研究解决了执行性预测在多主体场景中可能导致的社会福利损失问题。通过分析一个集体风险困境场景，提出了在追求准确性和社会福利之间的权衡方法，并利用贝叶斯代理行为模型为机制设计提供了新的思路。研究结果显示，改善这些权衡可以显著提升社会福利。

Abstract

Predictions often influence the reality which they aim to predict, an effect known as performativity. Existing work focuses on accuracy maximization under this effect, but model deployment may have important unintended impacts, especially in multiagent scenarios. In this work, we investigate

发现论文，激发创造

假设行为中的信仰和真相

研究了在多代理系统中如何利用贝叶斯学习来控制单一代理，从而完成任务并最大化收益，包括如何将证据纳入概率信念中，如何影响长期利润的先验信念以及如何检验推断类型的正确性。

Jul, 2015

贝叶斯探索：在贝叶斯博弈中激励探索

本文研究了在互联网经济中个体决策者在制定战略选择时的信息生产和消费，重点关注探索、开发和利益激励之间的平衡，并提出了一种不使用任何货币转移的建议政策设计方法以协调决策者。结果表明，经过实验模拟，设计的建议政策可以达到恒定的遗憾值，即使在面对随机收益时也可以达到对数遗憾。

Feb, 2016

执行式预测

文章探讨了预测可能影响其预测目标的可执行性预测，并提出了一种风险最小化框架，引入了统计学、博弈论和因果性的概念，并给出了最小化损失的稳定点的必要和充分条件。在全面性上，表现性预测严格包含战略分类设置，并给出了克服战略反馈效应的重新培训的首个充分条件。

Feb, 2020

预测两人重复博弈中的计划和行动

该研究提出了一种基于贝叶斯方法的算法模型，以预测人工智能代理在2个2矩阵博弈中与其合作者的行动，计划和意图，并采用两种预测方法（MAP和Aggregation），结果表明该模型预测行动和计划的准确度均达到88％以上，同时表明MAP在没有便宜谈判的情况下，预测S＃行动的性能明显好于Aggregation。

Apr, 2020

从行为理论到计量经济学：通过重复交互数据推断人类参与者的偏好

本文考虑了如何从人类交互数据中准确估计人类主体的偏好，并与行为经济学中的均衡概念相比较，其中四种基于行为均衡模型的估计方法被开发用于推断人类代理的效用，并使用2x2游戏的实验数据进行评估。结果表明，这些行为均衡方法产生的估计结果比纳什均衡法更准确，并且与量纲后悔法相比较，这些行为方法具有更好的命中率，但相对于整体均方误差来说，量纲后悔法表现更好，我们探讨了这些方法之间的差异。

Dec, 2021

多智体决策的复杂性：从博弈中的学习到部分监控

本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题，提出了一系列新的结构性结果，并阐述了决策时附带隐藏报酬的统计复杂度。

May, 2023

多智能体影响图中的不完美回忆

介绍了一种新的多智能体影响图(MAIDs)模型的方法，该方法使用混合策略和两种类型的相关均衡来解决遗忘和心不在焉的多智能体的Nash均衡问题，并分析了该模型中的主要决策问题的计算复杂性和可追溯情况。

Jul, 2023

偏倚缓解之补偿：一种强化学习视角

人工智能与人类决策的整合越来越紧密，我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为，但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理（例如，人工智能系统）对另一个代理（例如，人类）中的偏见和错误进行补偿，但这种补偿应该经过慎重发展。我们提供了一个理论框架，通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程（MDP）学习相互作用的模拟结果。然后，这项工作为我们在动态和复杂的决策环境中对AI代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说，我们的方法涉及了人类战略欺骗的微妙角色，并对以前的假设提出了挑战，即其有害的影响。我们断言，对他人偏见的补偿可以增强协调和道德一致性：当人工智能系统在道德管理下进行战略欺骗时，可以积极塑造人工智能与人类之间的互动。

Apr, 2024

具有持续改进的智能体下的算法决策

该研究探讨了在人类战略行为下的算法决策问题，其中决策者通过算法为人类代理制定决策，而后者在了解算法信息的情况下可以通过战略性努力逐渐改善以得到有利的决策。通过构建动态模型，本文分析了持久改进的特性，并基于此构建了Stackelberg博弈模型来描述代理与决策者之间的相互作用。在分析了策略平衡的基础上，还研究了决策者如何设计最佳策略以激励代理人口中最大幅度的改进。此外，本文还扩展了模型以包括1）代理人可能不诚实并操纵算法做出有利但错误的决策；2）诚实努力是容易忘记的并不能保证持久改进。在扩展模型中，我们进一步研究了代理人在何种条件下更倾向于诚实努力而不是不诚实行为，以及容易忘记努力的影响。

May, 2024

更好社会结果的补贴设计

本研究针对多代理系统中理性玩家的自私行为导致的低效问题进行了探讨，特别是理性代理避开免费的游戏信息所造成的更糟糕的社会结果。研究表明，通过数据驱动的方法设计补贴可以有效缓解这些问题，并能在重复游戏中学习出良好的补贴值，促进系统绩效的提升。

Sep, 2024