BriefGPT.xyz
Ask
alpha
关键词
likelihood noise
搜索结果 - 1
ICLR
基于概率模型的策略搜索学习鲁棒控制器
通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法,通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新,从而得到更健壮的控制器。
PDF
3 years ago
Prev
Next