在潜空间中使用轨迹聚类发现深度强化学习策略中的行为模式

Feb, 2024

在潜空间中使用轨迹聚类发现深度强化学习策略中的行为模式

Discovering Behavioral Modes in Deep Reinforcement Learning Policies Using Trajectory Clustering in Latent Space

Sindre Benjamin Remman, Anastasios M. Lekkas

TL;DR利用维度降低和轨迹聚类在神经网络的潜在空间中，研究深度强化学习代理的行为模式和改进方法。

Abstract

Understanding the behavior of deep reinforcement learning (DRL) agents is crucial for improving their performance and reliability. However, the complexity of their policies often makes them challenging to understand. In this paper, we introduce a new approach for investigating the

deep reinforcement learning behavior modes dimensionality reduction trajectory clustering latent space

发现论文，激发创造

基于潜空间目标的最优控制的深度强化学习行为模式切换

利用最优控制在深度强化学习策略的潜在空间中进行优化，识别并切换行为模式，结果表明该方法能够使策略产生所需的行为模式。

Jun, 2024

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

深度强化学习自适应路径约束的探索策略

提出了一种用于深度强化学习的高效适应性轨迹约束探索策略，利用不完整的离线演示作为参考，引入了一种新的基于策略梯度的优化算法，为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证，证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。

Dec, 2023

使用 PCA 高效表示状态空间

通过将代理器的状态投影到低维流形上，以更小、更高效的表示来表示状态空间，同时在学习过程中使用这种表示，能够使智能体更快地收敛于较好的策略。本文在马里奥水平测试中测试了这种方法，并发现在只用 4 个维度学习时（而不是 9 维），可以在更快的收敛速率下提高性能。

May, 2015

深度 MDP：学习连续潜空间模型以进行表征学习

介绍了一种参数化潜变量空间模型 DeepMDP，通过学习奖励和下一个潜变量状态的预测来训练模型，以提高强化学习中连续状态的表示效果，并证明其在 Atari 2600 游戏中可以明显提高模型性能。

Jun, 2019

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

深层潜在竞争：使用视觉控制策略在潜在空间学习赛车

该论文介绍了一种名为 Deep Latent Competition（DLC）的强化学习算法，其可以通过自我博弈在想象中学习竞争性视觉控制策略，从而实现长期推理。DLC 代理人在学习的世界模型的紧凑潜在空间中想象多智能体互动序列以减少实际采样生成的成本，同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在需要从图像观察中进行规划的新颖多智能体比赛基准测试中学习了有效的竞争行为。

Feb, 2021

嵌入式演示数据集搜索实现行为克隆

使用潜空间索引演示数据集，成功地利用搜索技术实现基于行为克隆算法的控制，因此收获了具有人类特征、可以适应各种情境的代理行为，比现有的训练模型更加高效，具有无需任务适应等优点。

Jun, 2023

随机潜在演员 - 评论家：具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在 Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019