May, 2017

深度强化学习中连续动作的离散顺序预测

TL;DR本文提出了一种使用神经网络模型 对连续动作空间离散化建模的方法,通过预测单个维度的方法对高维空间进行建模,实现了有效解决 高维连续控制问题 的技术,其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。