Sep, 2023

离线强化学习中的潜在扩散推理

TL;DR该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。