Jun, 2022

使用深度网络对低维流形上的非参数离策略评估进行样本复杂度分析

TL;DR该研究考虑使用深度卷积神经网络对强化学习的离线策略评估问题进行分析,发现通过适当选择网络大小,可以利用马尔科夫决策过程中的任何低维流形结构,获得一个高效的估计器。同时,该研究还提出一种新的逼近算法,并在数值实验中验证理论分析。