高效多智能体强化学习中的因果检测
本研究探讨了因果关系在多智能体强化学习中的应用,证明了因果关系估计可以用于改善智能体的学习并用 Amortized Causal Discovery 自动检测和惩罚懒惰的智能体,从而提高了团队的整体表现和个体能力。
Jun, 2023
通过从因果关系的角度研究,本文探讨了多智能体强化学习中的懒惰代理问题,并将其与因果关系领域建立联系,通过实验证明个体观察与团队奖励之间存在因果关系,进一步提高多智能体强化学习中独立代理的性能和智能行为。
Nov, 2023
该研究提出了一种基于 PCTL 逻辑公式和概率模型检验的方法,用于为多智能体强化学习系统(MARL)生成策略级对比解释以回答时间用户查询,以帮助用户理解复杂环境中 MARL 代理的新兴行为,并能够解释为何用户查询不可行。实验表明,该方法有效提高了用户的性能与满意度。
May, 2023
提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制,通过使用反事实推理来评估因果影响,结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强,同时增加了深度强化学习代理的学习曲线,并且在学习沟通协议方面也更有意义。
Oct, 2018
本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。
Mar, 2020
本文介绍了针对多智能体强化学习提出两种方法生成策略解释的手段:关于智能体协作和任务序列的策略总结和回答智能体行为问题的语言解释。在三个多智能体应用领域的实验结果及用户研究中,表明了该方法的可扩展性和显著提高了使用者满意度和性能评价结果。
Apr, 2022
提出了一种名为 Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning (SCIC) 的新型多智能体强化学习算法,通过基于因果关系干预和条件互信息,探测特定情况下智能体间的因果影响,从而促进智能体之间的合作。实验结果表明与其他算法相比,该方法优于目前最先进的方法。
Dec, 2023
在离线多智能体强化学习中,通过将生成过程建模为动态贝叶斯网络,我们的方法 MACCA 可以准确、可解释地分配每个个体的贡献,并且在离线数据集的设置下,已证明了其建模的正确性。实验证明,MACCA 在离散和连续动作环境中优于最先进方法并提高了其性能。
Dec, 2023
研究通过元强化学习是否可以发现因果推理,在这项研究中,我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习,证明了该代理可以在新的情况下进行因果推理,从观测数据中得出因果推断结果以及进行反事实预测,我们提出这种学习方法也可以在复杂的推理场景中进行因果推理,同时该工作还提供了新的强化学习结构探索策略。
Jan, 2019
研究人员通过借鉴因果关系文献的见解,引入因果关系和强化学习,划分了现有 Causal Reinforcement Learning (CRL) 方法的两类,并分析了每一类的不同模型的形式化。
Feb, 2023