在潜空间中使用轨迹聚类发现深度强化学习策略中的行为模式
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
提出了一种用于深度强化学习的高效适应性轨迹约束探索策略,利用不完整的离线演示作为参考,引入了一种新的基于策略梯度的优化算法,为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证,证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。
Dec, 2023
通过将代理器的状态投影到低维流形上,以更小、更高效的表示来表示状态空间,同时在学习过程中使用这种表示,能够使智能体更快地收敛于较好的策略。本文在马里奥水平测试中测试了这种方法,并发现在只用 4 个维度学习时(而不是 9 维),可以在更快的收敛速率下提高性能。
May, 2015
介绍了一种参数化潜变量空间模型 DeepMDP,通过学习奖励和下一个潜变量状态的预测来训练模型,以提高强化学习中连续状态的表示效果,并证明其在 Atari 2600 游戏中可以明显提高模型性能。
Jun, 2019
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023
该论文介绍了一种名为 Deep Latent Competition(DLC)的强化学习算法,其可以通过自我博弈在想象中学习竞争性视觉控制策略,从而实现长期推理。DLC 代理人在学习的世界模型的紧凑潜在空间中想象多智能体互动序列以减少实际采样生成的成本,同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在需要从图像观察中进行规划的新颖多智能体比赛基准测试中学习了有效的竞争行为。
Feb, 2021
使用潜空间索引演示数据集,成功地利用搜索技术实现基于行为克隆算法的控制,因此收获了具有人类特征、可以适应各种情境的代理行为,比现有的训练模型更加高效,具有无需任务适应等优点。
Jun, 2023
本文介绍了一种基于深度强化学习的算法,通过学习潜在表示来加速图像的强化学习,提出了随机潜在 Actor-Critic(SLAC)算法,并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。
Jul, 2019