Apr, 2023

通过潜在意图从被动数据中进行强化学习

TL;DR本文提出了一种基于意图模型和时序差分学习目标的强化学习方法,能够从非动作标签的被动数据中学习状态、策略和环境的可能后果三种表示,为解决后续任务提供了可行的价值预测的特性。