BriefGPT.xyz
Ask
alpha
关键词
mujoco continuous robotic control tasks
搜索结果 - 1
通过过渡占据匹配 (TOM) 学习具有策略感知的模型,用于模型驱动强化学习
本文提出了一种新的模型学习目标 TOM,利用重要性加权最大似然估计从回放缓冲中识别与策略相关的过去经验,使模型学习更专注于策略相关的经验,从而使策略更快地完成任务并获得更高的奖励。
PDF
a year ago
Prev
Next