Jul, 2018

通用价值函数网络

TL;DR本文探讨了如何在 RNN 中使用多步预测来限制内部状态,提高训练性能,提出了一种新的 RNN 架构 GVFH,其中每个内部状态组件都对应一个表示为值函数的未来预测,并证明它比传统的 RNN 更加健壮。