Aug, 2023

使用演员-评论算法和ReLU网络合成程序策略

TL;DR在这篇论文中,我们展示了使用actor-critic算法将从actor-critic算法学习到的策略转化为以程序形式编码的策略的连接,以此避免了需要使用特定于PIRL的算法的问题。实证结果表明,这种转化方法能够学习出简短而有效的策略,并且这些转化后的策略至少具有与PIRL算法相竞争的水平,往往更优秀。