Aug, 2023

正式-DAgger 用于MCTS:使用形式方法的数据聚合实现更低延迟的蒙特卡洛树搜索

TL;DR我们研究如何高效地结合形式方法、蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)和深度学习,以在大型马尔可夫决策过程(Markov Decision processes,MDPs)中生成高质量的滞后视野策略。