Jun, 2024

从规约中归纳推理的强化学习

TL;DR我们提出了一个新颖的归纳一般化框架,用于从逻辑规范中进行强化学习。该框架通过利用归纳任务之间的关系,学习生成适应归纳任务实例的策略生成器,以实现对长期任务中未见策略的广义化。