AAAINov, 2019

Gamma-Nets: 在时间尺度上泛化价值估计

TL;DR该研究介绍了一种名为 Gamma-nets 的方法,可以在不需要提前了解任务的情况下,有效地预测任意时间尺度下的目标值,并将其用于强化学习环境下的价值函数估计中。