Dec, 2011

具有微分包含的异步随机逼近

TL;DR采用伪轨迹法和两种时间尺度方法,通过异步随机逼近和组距平均场,实现对异步算法的收敛性分析并应用于马尔可夫决策过程的学习问题。