D3C: 多智能体学习中降低混沌代价
该研究开发了工具,用于分析具有单维代理商的非对称拍卖中的 Bayes-Nash 平衡的福利和收益,分析分离了标准的平稳框架两个不同的部分,得到了关于社会福利和收益的无序价格结果,并为最优福利和最优收益提供了近似结果,同时还给出了同时组合多个拍卖的扩展定理。
Apr, 2014
本文开发了一个框架,为计算机科学应用中涉及到的包含多个参与者的博弈论模型提供了红利保障,以减小其混沌的程度,实现了对多个经典模型的实例化,包括 “同时出价单项竞拍”、“贪婪组合式拍卖” 和 “路由博弈”,并鉴定了在什么情况下多方博弈的 POA 更好,同时也给出了简单竞拍可以在现实中表现出几乎和最优竞拍一样的效果的新的方面。
Mar, 2015
本文提出了一种奖励设计方法,通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果,并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。
Jan, 2019
通过分析几个主要城市的道路网络的旅行时间,我们评估了无协调驾驶者的乱象代价。我们的模拟表明,不协调的驾驶者可能会浪费相当数量的旅行时间。令人意外的是,简单地封锁某些道路可以部分改善交通状况。我们分析了各种复杂网络,讨论了物理学中类似的悖论可能性。
Dec, 2007
本文提出了一种通用的、模块化的理论来证明竞拍中的平衡近似保证,该理论补充了传统经济技术,着重于精确和最优解决方案,并因此局限于相对简化的设置。我们提出了三个用户友好的分析工具:平滑型不等式、扩展定理和组合定理,将这些工具结合起来,为许多广泛使用的拍卖格式的均衡提供了严格的最坏情况近似保证。
Jul, 2016
本文介绍了用于协作式多智能体强化学习的深度协调图(DCG)。DCG 通过协调图将所有智能体的联合价值函数因子化为智能体对之间的收益,从而在表征能力和泛化能力之间取得了灵活的折衷,解决了多智能体系统面临的相对过度泛化问题,在 StarCraft II 的微观管理任务中取得了显著的效果。
Sep, 2019
该研究通过将驾驶游戏建模为拥塞游戏来界定均衡效率,并通过模拟交通拥堵情况对社会成本和个人利益之间的相对权衡进行探究,得出了针对一些问题的 PoA 的改进边界。该研究还通过去中心化多智能体强化学习策略得出了高效均衡状态。
Oct, 2022
本文提出了利用市场力量鼓励多智能体系统中的协作行为,以应对智能驾驶或者工厂作为服务的具有相互冲突目标的混合动机场景。作者在包括囚徒困境博弈等迭代环节中证明了他们提出的市场推荐机制可以持续地学习协作策略,并证明在不同的智能体数量上,在时间和空间上的考验下,利用市场力量可以提高整体效果和智能体单个回报。
Jul, 2022