Nov, 2017

深度强化学习中的动作分支体系结构

TL;DR本文提出了一种新的神经网络架构,其中包括一个共享的决策模块和几个网络分支,通过允许每个单独的动作维度的独立性,实现网络输出数量与自由度数量的线性增加。通过提出的代理使用比Deep Deterministic Policy Gradient算法更适用于具有不断增长的动作自由度的环境的性能和有效性证明了该方法的可扩展性和可行性。