Mar, 2023

$P^{3}O$: 通过提示传递视觉表示以进行强化学习

TL;DR提出了一种名为 Prompt based Proximal Policy Optimization ($P^{3}O$) 的深度强化学习算法,该算法通过应用提示从目标环境(具有不同的视觉输入)到源环境传输视觉表示,包括三个阶段:预训练、提示和预测,训练 Prompt-transformer 来适应目标环境,并在 OpenAI CarRacing 视频游戏中进行实验,结果表明该算法优于现有的视觉传输方案,能够在具有不同视觉输入的环境中使学习策略表现良好,比在这些环境中重新训练策略更加有效。