Nov, 2023

通过集成程序合成和状态机来解决长期任务

TL;DR提出了 Program Machine Policies (POMPs),它集成了程序化强化学习和状态机策略的优势,能够表示复杂行为并解决长期任务。通过检索一组有效、多样、兼容的程序,并将其用作状态机的模式,学习过渡函数以在模式程序之间进行转换,从而捕捉长期重复行为,并在各种任务上优于程序化强化学习和深度强化学习基线模型。