BriefGPT.xyz
Ask
alpha
关键词
expressive energy-based policies
搜索结果 - 1
具有深度能量策略的强化学习
提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员
→
PDF
7 years ago
Prev
Next