基于潜空间目标的最优控制的深度强化学习行为模式切换

Jun, 2024

基于潜空间目标的最优控制的深度强化学习行为模式切换

Deep Reinforcement Learning Behavioral Mode Switching Using Optimal Control Based on a Latent Space Objective

Sindre Benjamin Remman, Bjørn Andreas Kristiansen, Anastasios M. Lekkas

TL;DR利用最优控制在深度强化学习策略的潜在空间中进行优化，识别并切换行为模式，结果表明该方法能够使策略产生所需的行为模式。

Abstract

In this work, we use optimal control to change the behavior of a deep reinforcement learning policy by optimizing directly in the policy's latent space. We hypothesize that distinct behavioral patterns, termed behavioral modes, can be identified within certain regions of a deep reinfor

optimal control deep reinforcement learning latent space behavioral modes neural network policy

发现论文，激发创造

在潜空间中使用轨迹聚类发现深度强化学习策略中的行为模式

利用维度降低和轨迹聚类在神经网络的潜在空间中，研究深度强化学习代理的行为模式和改进方法。

Feb, 2024

研究选择对于深度强化学习在航天控制中的影响

该论文研究了使用离散动作空间，以及探索选择提供给智能体数量对其在训练期间和之后的表现的影响，针对检查任务和停靠任务的需求。结果显示对于检查任务，有限数量的离散选择导致最佳性能，而对于停靠任务，连续控制导致最佳性能。

May, 2024

层次强化学习的隐空间策略

本文介绍了一种学习分层深度神经网络策略，通过最大熵强化学习目标训练各层解决任务，并通过潜在随机变量进行增广，从而实现多层次策略学习。对标准基准测试任务，通过增加多层，可以改善高层策略表现。对于简单低层次的目标，高熵技能的优化学习可以解决更复杂的稀疏奖励任务。

Apr, 2018

简化基于模型的强化学习：使用单一目标学习表示、潜空间模型和策略

本研究提出了一种单一目标的方法，该方法同时优化隐空间模型和策略以实现高回报并保持自一致性，从而在提高样本效率的同时实现更好的强化学习效果。

Sep, 2022

嵌入式演示数据集搜索实现行为克隆

使用潜空间索引演示数据集，成功地利用搜索技术实现基于行为克隆算法的控制，因此收获了具有人类特征、可以适应各种情境的代理行为，比现有的训练模型更加高效，具有无需任务适应等优点。

Jun, 2023

深层潜在竞争：使用视觉控制策略在潜在空间学习赛车

该论文介绍了一种名为 Deep Latent Competition（DLC）的强化学习算法，其可以通过自我博弈在想象中学习竞争性视觉控制策略，从而实现长期推理。DLC 代理人在学习的世界模型的紧凑潜在空间中想象多智能体互动序列以减少实际采样生成的成本，同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在需要从图像观察中进行规划的新颖多智能体比赛基准测试中学习了有效的竞争行为。

Feb, 2021

PLAS：离线强化学习的潜在动作空间

该论文提出了一种使用潜在动作空间学习策略的离线强化学习方法，能够有效克服现有算法存在的内插误差，具有优异的性能表现。

Nov, 2020

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

随机潜在演员 - 评论家：具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在 Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020