Sep, 2024

在随机游戏中预测无知对手

TL;DR本研究解决了在并发随机游戏中系统性预测无知环境的动作和策略的问题。我们提出了一种有限信息状态机的合成方法,并引入了一致性概念,以确保状态机跟踪的信念状态与实际信念状态保持在固定距离内。实验结果表明,该方法在医疗手术和家具组装等任务中成功预测环境的策略和动作,从而最大化奖励。