关于神经网络在时间差异学习中的性能

Dec, 2023

关于神经网络在时间差异学习中的性能

On the Performance of Temporal Difference Learning With Neural Networks

Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky

TL;DR神经时间差异学习是一种用于策略评估的近似时间差异方法，它利用神经网络进行函数逼近。本论文通过对投影到初始点θ₀周围半径为ω的球B(θ₀, ω)的神经时间差异学习的收敛性分析，展示了一个近似界限为O(ε)+~O(1/√m)，其中ε是B(θ₀, ω)中最佳神经网络的逼近质量，而m是网络中所有隐藏层的宽度。

Abstract

Neural Temporal Difference (TD) Learning is an approximate temporal difference method for policy evaluation that uses a neural network for functi