Jun, 2023

在线敏感采样下的低转换策略梯度与探索

TL;DR本文提出了一种 LPO 算法来解决强化学习中的政策优化问题,其中包括限制 eluder 维度和在线灵敏度采样等最近进展的应用,可以实现一定程度的非线性函数逼近,通过使用深度神经网络验证了理论方法的成果。