BriefGPT.xyz
大模型
Ask
alpha
关键词
converging supervisor
搜索结果 - 1
基于收敛上级的同策略机器人仿真学习
本文讨论了在学习策略时,监督者可能会变化的问题,并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外,作者将此框架与一类强化学习算法(DPI)相连,并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好
→
PDF
5 years ago
Prev
Next