多智能体系统风险管理的博弈论框架
使用累积概率理论(CPT)的分布式采样型 actor-critic(AC)算法为网络聚合式马尔科夫博弈(NAMG)引入风险敏感性,实现主观感知的马尔科夫最优纳什均衡。实验结果表明,通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同,具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。
Feb, 2024
Markov games 和 multi-agent reinforcement learning 研究了多智能体系统中的决策制定模型。本文系统回顾了最近几年在 risk-sensitive MG 和 MARL 领域中增长的相关文献,并定义和数学描述了在 MG 和 MARL 中使用的不同风险度量,并讨论了各个度量所涵盖的文章。最后,我们识别了该领域理论和应用研究的最新趋势,并讨论了未来研究的可能方向。
Jun, 2024
通过赋予智能体风险厌恶和有限理性等人类决策要素,我们展示了一类风险厌恶量子响应均衡解(Risk-Averse Quantal Response Equilibria,RQE),不依赖于底层游戏结构而只依赖于智能体的风险厌恶程度和有限理性,在所有 n 个玩家矩阵和有限时域马尔可夫博弈中可以高效计算。此外,我们还通过实证经济学研究所涉及的许多两人矩阵游戏验证了这类解集的丰富性,并对在有生成模型的有限时域马尔可夫博弈中计算这些均衡的样本复杂度进行了首次分析,同时在简单的多智能体强化学习基准测试中验证了我们的发现。
Jun, 2024
我们研究了在一般和马尔可夫游戏中,多智能体强化学习中的风险敏感问题,其中智能体通过强化学习最大化奖励的熵风险衡量,并且可能具有不同的风险偏好。我们表明,使用现有文献中直接从后悔中获得的波动作为性能指标可能会导致存在偏差的策略,偏好最敏感风险的智能体并忽视其他智能体。为了解决这种直接后悔的不足,我们提出了一种新的后悔定义,称之为风险平衡后悔,并通过下界证明其克服了平衡偏差的问题。此外,我们开发了一种自我博弈算法,用于在风险敏感的马尔可夫游戏中学习纳什均衡、相关均衡和粗糙相关均衡。我们证明了该算法相对于风险平衡后悔在近乎最优的性能保证。
May, 2024
本文提出了一种新的层次化基于网络的游戏论效用树(GUT)模型,将高级策略分解成可执行的低级动作以协同 MAS 决策。该模型结合了基于代理需求的新的支付措施,可帮助协同决策,其在实时策略游戏领域取得了良好的表现,同时使用机器人实验室验证了其在真实机器人应用中的有效性,可有效组织 MAS 合作策略,帮助群体获得更高性能。
Mar, 2023
在高度动荡的金融市场环境下,本研究提出了一个自适应的多智能体框架(MASA),采用了深度学习和强化学习方法作为反应性代理,平衡投资组合的回报和潜在风险。该框架中的市场观察者代理提供了有价值的市场趋势信息,以帮助多智能体反应性学习方法快速适应不断变化的市场条件。经验证实,MASA 框架在过去 10 年的 CSI 300 指数、道琼斯工业平均指数和标准普尔 500 指数上相比其他已知基于强化学习方法的方法表现出潜在优势,并为未来的研究提供了多个可能的方向。
Feb, 2024
本文提出了一种风险规避的强化学习算法,通过引入风险规避主角和风险趋避对手的方式,使用价值函数方差来建模风险,避免极端不良事件的发生,该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。
Mar, 2019
调查在博弈论情境中激发合作的策略,分析现有的合作策略对重复游戏中促进群体行为的有效性,并在具有指数增长代理人群体的情境中建立均衡解和奖励结构。通过模拟实现将理论概念与实际应用相结合。
Sep, 2023
提出一种新的框架,称为 Risk-Averse and Soft-Robust methods (RASR),用于联合建模有限和无限时域 rMarkov 决策过程(MDP)中的认识不确定性和 aleatory 不确定性与刻画风险。在 RASR 中,当风险是使用 EVaR 或熵风险定义时,可以使用时间依赖的风险级别使用动态程序形式化地计算最优风险规避策略。我们还发现特定的 RASR 目标简化为具有后验平均转移概率的风险规避 RL。实验结果表明,我们新的算法通过 EVaR 和其他标准风险度量一致地缓解不确定性。
Sep, 2022