BriefGPT.xyz
Ask
alpha
关键词
novel policies
搜索结果 - 1
ICML
学习新任务的策略
本文提出一种强化学习算法,通过自编码器将已发现策略的状态序列进行度量,以此产生新的策略,同时利用两个目标的策略梯度算法在策略更新中权衡任务奖励和新颖度奖励,最终得到一些解决特定任务和具有差异化行动序列的策略,并展示该方法在迷宫导航,机械臂和
→
PDF
5 years ago
Prev
Next