Mar, 2023

POMCP 中软策略引导的逻辑规范学习

TL;DR本文介绍了如何使用归纳逻辑编程从 POMCP 执行的跟踪中学习规则并将它们集成到 POMCP 中,以提供对有前途的动作的软性策略偏向,我们在两个基准情景下说明,从小任务实例中学习到的规则的集成可以提高性能,并且需要更少的蒙特卡罗模拟并且处理更大的任务实例。