Jan, 2022

使用新的模块化架构评估强化学习中的政策、损失和规划组合

TL;DR本文提出基于模型的强化学习范式中的新型模块化软件架构和一组可以方便地重复使用和组装以构建新的基于模型的强化学习智能体的构建块,包括规划算法,策略以及损失函数,实验证明了该架构是有用的,可用于研究新环境和技术。