Dec, 2023

关于神经网络在时间差异学习中的性能

TL;DR神经时间差异学习是一种用于策略评估的近似时间差异方法,它利用神经网络进行函数逼近。本论文通过对投影到初始点θ₀周围半径为ω的球B(θ₀, ω)的神经时间差异学习的收敛性分析,展示了一个近似界限为O(ε)+~O(1/√m),其中ε是B(θ₀, ω)中最佳神经网络的逼近质量,而m是网络中所有隐藏层的宽度。