Mar, 2023
POMCP 中软策略引导的逻辑规范学习
Learning Logic Specifications for Soft Policy Guidance in POMCP
Giulio Mazzi, Daniele Meli, Alberto Castellini, Alessandro Farinelli
TL;DR本文介绍了如何使用归纳逻辑编程从 POMCP 执行的跟踪中学习规则并将它们集成到 POMCP 中,以提供对有前途的动作的软性策略偏向,我们在两个基准情景下说明,从小任务实例中学习到的规则的集成可以提高性能,并且需要更少的蒙特卡罗模拟并且处理更大的任务实例。