二人零和博弈的多智能体逆强化学习
我们考虑了在未知的随机马尔可夫环境或游戏中,从代理人的示范学习的问题。我们旨在估计代理人的偏好,以构建同一任务的改进策略。为了做到这一点,我们将已知MDP中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点,为了易于处理,我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下,这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。
Aug, 2014
本文对逆强化学习领域的现有文献进行了分类调查,介绍了IRL问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
该论文提出了针对多智能体逆向强化学习(MIRL)问题的五种变体解决方案,包括合作博弈、相关均衡博弈、纳什均衡博弈、对抗性均衡博弈和协调均衡博弈,并提出了一些新的方法来解决这些问题。
Jun, 2018
本研究探讨了IRL是否能从金融随机环境(LOB)中的代理中推断出奖励,并使用先前的线性和高斯过程回归器以及自己的方法通过贝叶斯神经网络(BNN)来模拟其潜在奖励函数,说明非线性奖励函数产生的复杂行为可以通过推断来推断。
Jun, 2019
本文提出了一种新的多智能体逆强化学习框架(MA-AIRL),有效地解决了高维空间和未知动态的马尔科夫博弈问题,并展示了在策略模仿方面,MA-AIRL显著优于现有方法。
Jul, 2019
该研究探讨了如何设计自主智能体,使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理Markov决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得,结果显示学习代理的策略对转移函数具有显著影响时,奖励函数可以被高效地学习。
Nov, 2021
本文探讨了在协作场景中人们如何相互交互尤其是在个体了解队友很少的情况下,通过多智能体逆强化学习(MIRL)来推断每个个体行为背后的奖励函数。针对这个问题,我们提出一个新颖的 MIRL-ToM 模型,结合了理论思维(Theory of Mind)和最大熵 IRL,成功地恢复了用于有知晓或无知晓队友互动的奖励。
Feb, 2023
我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习(IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于IRL方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点,即当先验认为专家对环境有高度准确的模型时,估计出的策略表现出了稳健的性能。我们在MuJoCo环境中验证了这个观察结果,并展示了我们的算法在离线IRL问题上优于最先进的方法。
Sep, 2023
基于贝叶斯观点和变分自编码器,提出一种解决交互式运动规划中的逆游戏问题的方法,通过构建后验分布来量化未知参数的不确定性,并且在处理连续、多模态分布时具有高效性。在模拟驾驶场景中的广泛评估中表明,该方法成功学习先验和后验目标分布,相比MLE基准,提供更准确的目标估计,从而促进更安全、更高效的博弈论运动规划。
Feb, 2024