May, 2023

通过过渡占据匹配 (TOM) 学习具有策略感知的模型,用于模型驱动强化学习

TL;DR本文提出了一种新的模型学习目标 TOM,利用重要性加权最大似然估计从回放缓冲中识别与策略相关的过去经验,使模型学习更专注于策略相关的经验,从而使策略更快地完成任务并获得更高的奖励。