BriefGPT.xyz
Ask
alpha
关键词
off-line training
搜索结果 - 1
基于动态规划的模型预测控制和强化学习的统一框架
本文描述了一个将近似动态规划 (DP)、模型预测控制 (MPC) 和强化学习 (RL) 连接起来的新概念框架,其中通过牛顿法的强大机制,离线训练和在线应用算法相互独立地设计,协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了
→
PDF
a month ago
Prev
Next