NIPSDec, 2015

二进制向量动作的 Q 网络

TL;DR本文研究了具有二元向量动作的强化学习问题,提出了一种用于逼近二元向量动作价值函数的神经网络有效架构,该架构可以使得基于贪心或 softmax 策略的动作选择可以进行高效计算,并基于 Q-learning 提出了一种在线算法,论文还给出了基于方格世界和块障碍任务的实证结果,表明提出的逼近架构可以在具有大量离散动作集的 RL 问题中取得良好的效果。