Mar, 2015

带控制的马尔科夫噪声和离线时差学习的两时间尺度随机逼近

TL;DR本研究首次提出两个时间尺度随机逼近的渐近收敛性分析,其中包括非加性控制的马尔可夫噪声。通过与限制微分协同关系进行比较,分析了控制马尔可夫过程的基于随机逼近的渐近行为,最终提供了具有线性功能逼近的离策略收敛问题的解决方案。