BriefGPT.xyz
Nov, 2020
基于模型的强化学习在连续控制中的后验采样
Efficient Exploration for Model-based Reinforcement Learning with Continuous States and Actions
HTML
PDF
Ying Fan, Yifei Ming
TL;DR
本文研究了连续状态动作空间中强化学习的基于模型的后验抽样(PSRL),提出了第一个后验抽样的遗憾上界,并开发了MPC–PSRL算法来选择动作,通过贝叶斯线性回归捕获模型中的不确定性,在基准连续控制任务中实现了最先进的样本效率,并与无模型算法的渐近性能相匹配。
Abstract
Balancing exploration and exploitation is crucial in
reinforcement learning
(RL). In this paper, we study the
model-based posterior sampling
algorithm in
→