Jun, 2016

学习宏观动作的战略性专注作家

TL;DR本文提出了一种名为 STRAW 的深度循环神经网络,它能够在强化学习环境中纯交互学习构建隐含计划的网络结构,该网络结构可以分割内部表示,并学习计划持续时间,从而可以学到不同长度的高级宏操作 (Task),并且可以应用于包括 Atari 游戏和文本预测任务在内的任何 Sequence 数据,通过引入时间抽象的策略 (STRAW) 使得任务获得了强有力的改进。