关键词value function approximations
搜索结果 - 2
- 使用监督学习构建短视多方计算策略
使用监督学习技术结合模型预测控制(MPC)在近期引起了显著关注,特别是在近似显式 MPC 领域,其中使用深度神经网络等函数逼近器通过离线生成的最优状态 - 动作对来学习 MPC 策略。本文考虑了一种替代策略,即使用监督学习离线学习最优值函数 - 强化学习中使用的近似本地空间的收敛速率
该论文研究了出现在再生核希尔伯特空间 (RKHS) H (Ω) 的一组值函数逼近的收敛速度。通过在特定类别的本地空间中建立一个最优控制问题,得出了政策迭代中出现的离线逼近的强收敛速度。利用有限维逼近空间 H_N 的幂函数 Pwr_{H,N}