Nov, 2024
基于约束潜在动作策略的模型驱动离线强化学习
Constrained Latent Action Policies for Model-Based Offline Reinforcement
Learning
TL;DR本文针对离线强化学习中使用静态数据集导致的政策生成不在分布内的问题,提出了一种新的方法——约束潜在动作策略(C-LAP)。通过学习观察与动作的联合分布生成模型,将政策学习视为一个受限目标,有效地消除了对贝尔曼更新的额外不确定性惩罚需求,并显著减少了学习政策所需的梯度步骤。实验表明,C-LAP与先进方法具有竞争力,特别是在具有视觉观察的数据集上表现优异。