Apr, 2023

决策时间规划的更新等价框架

TL;DR通过引入基于更新等价的框架,使决策时间规划算法不依赖公共信息,可以在具有大量非公共信息的场景中有效地进行决策时间规划。在 Hanabi 中的实验中,该算法家族的成员产生了可比较或优于最先进方法的结果,并且改善了 3x3 Abrupt Dark Hex 和 Phantom Tic-Tac-Toe 的性能。