Apr, 2015

时序差分网络

TL;DR介绍了一种将时间差异(TD)学习推广到相互关联预测网络的方法, TD 网络能够表示和应用 TD 学习到比以前更广泛的预测类别,并通过将预测之间的关系作为条件来提高学习效率,此外,还演示了 TD 网络可以学习预测状态表示,成为 TD 方法能力的实质性扩展之一,带我们更加接近以完全预测和基于经验的方式表达世界知识的目标。