BriefGPT.xyz
Ask
alpha
关键词
neural network function approximation
搜索结果 - 3
基于 Whittle 指数的有限时间分析:带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习
基于神经网络函数逼近的 Whittle 指数的 Q - 学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题,通过耦合两个时间尺度的 Q - 函数和 Whittle 指数,提供了 Neueral-Q-Whittle 的收
→
PDF
9 months ago
ICLR
混合强化学习:利用离线和在线数据都可使强化学习更加高效
本文介绍一种混合强化学习算法 Hy-Q,利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。
PDF
2 years ago
强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差
本文介绍了一种基于非线性机器学习的强化学习算法,该算法使用一种新的广义均方投影贝尔曼误差作为目标函数,可提高算法的稳定性和性能。
PDF
3 years ago
Prev
Next