使用变化状态表的高效基于模型的深度强化学习
本文介绍了一种用于序列数据学习和推理的变分方法,即基于变分时间抽象(VTA)的分层循环状态空间模型,该模型能够推断潜在的时间结构并因此进行随机状态转换分层;同时本文还提出了将该模型应用于增强想象学习中的跳跃想象能力实现,并且实验验证表明本文提出的方法能够对 2D 和 3D 视觉序列数据集进行可解释性时间结构发现并且应用于多样化的想象能力可以有效提高 3D 导航任务中的智能体学习效率。
Oct, 2019
该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法,通过使用低维潜在动作编码和状态条件 VQ-VAE 模型,以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹,并在高维持续行为空间中超越了现有的模型和策略的基线结果。
Aug, 2022
提出了一种名为 Vlearn 的新型离策略信任区域优化方法,通过只利用一个状态值函数作为评论家来克服现有方法的多个限制,在处理高维动作空间时解决了计算上的挑战。同时,通过消除对状态 - 动作 - 值函数的需求,Vlearn 简化了学习过程,在复杂环境中实现了更高效的探索和利用。
Mar, 2024
在延迟观测环境中,通过包含延迟窗口内的动作来增加状态,以恢复马尔科夫特性,从而实现强化学习,但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能,本工作引入了一种称为变分延迟策略优化(VDPO)的新框架,将延迟强化学习重新构建为一个变分推断问题。该问题进一步被建模为一个两步迭代优化问题,其中第一步是在无延迟环境中进行时序差分学习,而第二步是行为克隆,其效率比时序差分学习要高得多。我们不仅从样本复杂度和性能方面进行了理论分析,而且还通过在 MuJoCo 基准测试中的实验证明,VDPO 可以与最先进的方法达到一致的性能,并且样本效率显著提高(样本量减少了约 50%)。
May, 2024
强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态 - 行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为 VAPOR,与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本 VAPOR 在性能上的优势。
Nov, 2023
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
提出了一种将初始状态空间划分为不同 ' 切片 ' 并对每个切片上的策略进行 优化的 Deep RL 算法,其逐步将这些策略组合为一个能够在整个状态空间上成功的策略,该方法在挑战性的抓握、操纵和运动任务上表现出比常规策略梯度方法更好的性能。
Nov, 2017
提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员方法存在联系,可以视为对相应能量模型进行近似推断。
Feb, 2017