Mar, 2019

参数化动作空间中的混合演员 - 评论家强化学习

TL;DR介绍了一种混合体结构的深度强化学习算法,其包含多个并行的子演员网络和一个评论家网络,可以将结构化的行动空间分解为更简单的行动空间,并指导所有子演员网络的训练。该算法在参数化行动空间中展示了出色的表现。