Jun, 2023

决策堆栈:基于模块化生成模型的灵活强化学习

TL;DR本研究提出决策栈(Decision Stacks),一种将目标条件策略代理分解为 3 个生成模块的生成框架,其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变,并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果,优于现有方法,并实现了灵活的生成决策制定。