Jul, 2024

蒙特卡罗树搜索中经过状态占用正则化的可证明高效长期探索

TL;DR基于状态占用度测量规范化的策略优化导出了一种树搜索算法Volume-MCTS,通过测试发现其在机器人导航问题中表现出优于AlphaZero和更好的长视野探索性能。