Jun, 2022

DNA: 双网络结构的近端策略优化

TL;DR本文探讨了在深度演员-评论家强化学习模型中同时学习价值函数和策略的问题,并提出了一种名为“Dual Network Architecture”的方法,通过独立地学习这两个任务但在约束蒸馏阶段进行学习,从而显著提高了性能,并在四个测试环境中胜过了流行的Rainbow DQN算法。