强化学习的潜在探索

May, 2023

Latent Exploration for Reinforcement Learning

Alberto Silvio Chiappa, Alessandro Marin Vargas, Ann Zixiang Huang, Alexander Mathis

TL;DR提出了 LATent TIme-Correlated Exploration (Lattice) 方法，用于在策略网络的潜在状态中注入时间上相关噪声，以优化高维输入到输出的复杂的运动控制任务中的策略学习，证明了有结构的动作噪声在时间和执行器空间上的有效性。

Abstract

In reinforcement learning, agents learn policies by exploring and interacting with the environment. Due to the curse of dimensionality, learning policies that map high-dimensional sensory input to motor output is particularly challenging. During training, state of the art methods (SAC,

reinforcement learning policy learning exploration motor control structured noise

发现论文，激发创造

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

手掌向上：在潜在空间中进行无监督预训练游戏

本文提出了一种深度生成模型的算法，结合静态数据集和动态模型，利用无监督的强化学习探索环境，在时间信息中进行表示学习，并成功地将学习到的表示迁移到视觉和强化学习任务中。

Oct, 2022

潜在扩散下的高效规划

该研究论文介绍了一种统一的框架，利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划，通过考虑预训练的扩散模型进行能量引导抽样，通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能，并在高维任务中超过了现有的方法。

Sep, 2023

潜在状态边际化：改善探索的低成本方法

本文介绍了一种称为 SMAC 的算法，它使用最大熵强化学习框架中的潜在变量策略来提高探索和稳健性能力，并在连续控制任务上进行实验验证。

Oct, 2022

层次强化学习的隐空间策略

本文介绍了一种学习分层深度神经网络策略，通过最大熵强化学习目标训练各层解决任务，并通过潜在随机变量进行增广，从而实现多层次策略学习。对标准基准测试任务，通过增加多层，可以改善高层策略表现。对于简单低层次的目标，高熵技能的优化学习可以解决更复杂的稀疏奖励任务。

Apr, 2018

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023

PLAS：离线强化学习的潜在动作空间

该论文提出了一种使用潜在动作空间学习策略的离线强化学习方法，能够有效克服现有算法存在的内插误差，具有优异的性能表现。

Nov, 2020

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

高斯过程状态空间模型本地主动学习

本文提出了一种基于高斯过程状态空间模型的主动学习策略，旨在获取状态操作空间有界子集上的准确模型，并通过模型预测控制集成探索过程中收集的信息和自适应改进探索策略。

May, 2020

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021