基于回合的多智能体强化学习模型检测
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文提出了一个新算法,能够有效地应用于大量状态空间问题中的多智能体强化学习,以寻找具有低复杂度的多代理贝尔曼-伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。
Jun, 2021
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究,并提出了一种基于模型的离线多智能体近端策略优化算法(MOMA-PPO),利用合成的交互数据帮助智能体在策略调整中更好地协调,成功解决了现有算法在多智能体任务中出现的协作问题。
May, 2023
本文提出了一种基于置信集和符合预测的多智能体强化学习算法CAMMARL,并通过在两个完全协作的多智能体任务中进行的多个实验证明了该算法可以提高智能体的策略学习能力。
Jun, 2023
我们提出了一种新的关于多智能体仅信任利用信任基础的语言的语义,并展示了如何将其用于自动检查该语言及其具有私有信念扩展运算符的动态扩展的公式。我们提供了一个依赖于QBF和另一种专用算法的PSPACE模型检查算法,并提出了基于QBF的算法的实现和一个具体实例的计算时间的一些实验结果。
Jul, 2023
概率模型检查是一种在不确定性或随机性背景下对软件或硬件系统进行形式化自动推理的技术。该技术综合了来自多个领域的思想和技术,包括逻辑、自动机理论、图论、优化、数值方法和控制。最近,概率模型检查还扩展到整合博弈论中的思想,特别是使用随机博弈模型和均衡解概念来正式验证具有不同目标的多个理性代理之间的交互。这提供了一种灵活推理有关代理以对抗或协作方式行动的手段,并为人工智能、机器人和自主系统等领域解决新问题带来机遇。本文概述了该领域的一些进展,并强调了它们已经被使用的应用。我们讨论了概率模型检查的优势如何应用或有潜力应用于多智能体系统,并概述了在这一领域取得更进一步的关键挑战。
Aug, 2023
我们介绍了一种验证随机强化学习政策的方法,该方法与任何强化学习算法兼容,只要算法及其对应的环境共同遵守马尔科夫属性。我们的方法将模型检验技术与强化学习相结合,利用马尔科夫决策过程、训练好的强化学习策略和概率计算树逻辑(PCTL)公式构建一个正式模型,并通过模型检验器Storm进行验证。我们在多个基准测试中展示了我们的方法的适用性,并与称为确定性安全估计和简单的整体模型检验方法进行了比较。我们的结果表明,我们的方法适用于验证随机强化学习政策。
Mar, 2024
用全参数共享的多智能体强化学习(MARL)在中国跳棋的完全信息同质博弈中胜过独立和部分共享结构。为了运行实验,我们开发了一个新的MARL环境:可变大小、六人中国跳棋。该定制环境是在PettingZoo中开发的,支持游戏的所有传统规则,包括链式跳跃。据我们所知,这是中国跳棋的第一个忠实于真实游戏的实现。
May, 2024