Feb, 2024

基于程序的策略归纳强化学习

TL;DR使用贝叶斯规划归纳发现对称学习、适应性依赖于时间跨度的随机探索和离散状态转换等在经典的增量学习中困难或出乎意料的策略。