多智能体强化学习学习和校准异质有界理性市场行为

Feb, 2024

多智能体强化学习学习和校准异质有界理性市场行为

Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning

Benjamin Patrick Evans, Sumitra Ganesh

TL;DR在代理基模型中，我们提出了一种用于在多代理强化学习框架下表示异构处理受限代理的新技术，通过共享策略学习以及代理技能水平的分布，实现了从严格效用最大化到有界理性行为的过渡，并通过使用策略梯度来学习行为，通过在多个实例中验证，我们证明了该模型在许多常见的代理设置下具有显著改进的预测能力。

Abstract

agent-based models (ABMs) have shown promise for modelling various real world phenomena incompatible with traditional equilibrium analysis. However, a critical concern is the manual definition of behavioural rules in ABMs. Recent developments in →

agent-based models multi-agent reinforcement learning bounded rationality agent heterogeneity policy gradients

发现论文，激发创造

通过强化学习和基于代理的建模模拟理性对经济的影响

使用多智能体增强学习 (RL) 拓展有限理性模拟模型以考察其对经济的影响，研究发现多智能体根据市场竞争和理性程度 spontaneously 学习出不同策略，增加市场力量和整体利润，但更高程度的理性也可能导致更大不稳定性，并提出了可以稳定学习的经济模拟模型。

May, 2024

使用 RL 行为模型的面向政策的基于代理的建模

本文研究了在决策制定环境下，基于强化学习的智能体决策行为的刻画与建模。实验结果表明，相比于传统的规则制定和数据回归方式，基于强化学习的智能体决策行为模型具有更高的适应性和更好的表现，可以更好地支持 Agent-based Models 在政策分析等领域的应用。

Jun, 2020

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

在 ABM 中学习复杂的空间行为：一个实验观察研究

本文介绍了一种利用深度强化学习方法，如 PPO 算法，基于智能代理模型实现的智能自适应行为仿真方法。通过捕捉和模拟代理模型中的隐藏，躲避和觅食等行为，探索并展示了深度强化学习方法在智能自适应行为建模中的应用研究。

Jan, 2022

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

基于模型的多智能体强化学习：最新进展和前景展望

本文回顾了现有的关于基于模型的多智能体强化学习的研究，包括理论分析、算法和应用，并分析了基于模型的多智能体强化学习的优势和潜力。此外，我们提供了算法的详细分类，并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后，我们总结了这一领域未来发展的有前途的方向。

Mar, 2022

多智能体强化学习模拟加密市场

通过使用多智能体强化学习模型，对加密货币市场进行建模和仿真，该模型根据 2018 年至 2022 年间 Binance 交易的 153 种加密货币的每日收盘价进行校准，利用市场价格和加密资产基本价值的近似值进行资产价格估值，从而精确模拟加密货币市场的微观结构和关键市场行为。

Feb, 2024

Phantom -- 基于 RL 的多智能体框架用于建模复杂系统

本文介绍了一种名为 “Phantom” 的开源框架，该框架旨在提供用于简化基于代理的建模的工具，是一种驱动 RL 的框架，可用于建模复杂的多代理系统，包括经济系统和市场。

Oct, 2022

异质代理镜像学习：协作多智能体强化学习的一系列解决方案

本文介绍了一种名为异构代理镜像学习（HAML）的新型框架，该框架提供了一种通用的 MARL 算法设计模板，解决了在奖励单调性或收敛时的非最优性能问题，通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性，并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。

Aug, 2022

一项多功能的多智能体强化学习库存管理基准测试

本文介绍了一个名为 MABIM 的多代理数据集。作者使用该数据集对一些方法在多商品多层次库存管理问题的性能进行了评估，并探讨了多益智智能算法在实际行业中的应用。

Jun, 2023