Mar, 2021

离线信任学习

TL;DR该研究提出了一种名为 off-belief learning(OBL)的方法,通过多层次认知推理来解决基于自习的 Dec-POMDPs(分布式部分可观测马尔科夫决策过程)在测试阶段无法适应人类行为模式的问题,并在 Hanabi 基准测试中展现了强大的表现。