BriefGPT.xyz
Ask
alpha
关键词
long-horizon imitation
搜索结果 - 1
SQIL: 通过稀疏奖励加强学习实现的模仿学习
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAI
→
PDF
5 years ago
Prev
Next