Nov, 2015

深度强化学习的竞技网络架构

TL;DR本文介绍一种新的神经网络架构,即竞争网络,用于无模型强化学习。竞争网络表示两个独立的估计器:状态值函数和状态依赖性动作优势函数。结果表明,竞争架构有助于在类似值的动作存在的情况下实现更好的策略评估,并使得强化学习代理能够在 Atari 2600 领域超越现有技术。