BriefGPT.xyz
Ask
alpha
关键词
off-policy rl algorithm
搜索结果 - 3
通过持续行动的可变时间离散化的演员 - 评论家方法
提出了一种名为 SusACER 的离策略强化学习算法,它结合了不同时间离散化设置的优势,通过始初稀疏时间离散化逐渐转换为精细离散化,在机器人控制环境中进行分析,证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D
→
PDF
a year ago
通用强化模仿及其在基于视觉的自动驾驶中的应用
本研究提出了一种名为 GRI 的新方法,将探索和专家数据的优点相结合,简单易实现。通过提出离线演示智能体的概念,将专家数据与在线探索智能体的经验同时处理,证明了该方法在基于视觉的城市道路场景下的自主驾驶和 Mujoco 连续控制任务上的有效
→
PDF
3 years ago
使深度 Q 学习方法对时间离散化具有鲁棒性
本研究证明了 Q-learning 不存在于连续时间中,指出时间离散化的敏感性是 Deep Reinforcement Learning 具有鲁棒性的关键因素,提出了一种无模型的强化学习算法,能够在不同的时间离散化下稳健地工作。
PDF
5 years ago
Prev
Next