价值预测网络
本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法, Policy Prediction Network, 该方法结合了模型自由与模型驱动强化学习,采用了经验证实的裁剪方法,实现了对连续动作空间的模型驱动学习并使其能够更好地适应 MuJoCo 环境等连续控制问题。
Sep, 2019
本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value(DQV) Learning。通过测试两个经典强化学习问题和四个 Atari 游戏,结果表明,DQV 比 Deep Q-Learning 和 Double Deep Q-Learning 学习得更快,更好,表明该算法可能是一种比当前 DRL 中已有的同步时差算法表现更好的算法。
Sep, 2018
提出一种新的概率视频模型,Video Pixel Network (VPN),它可以很好地估计视频像素点之间离散的联合分布,其在 Moving MNIST 和 Robotic Pushing 基准测试中都取得了最好的性能表现。
Oct, 2016
Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法,通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。
Oct, 2022
本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法,通过估计给定一组状态下多种策略的价值,实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明,该方法的理论和实际效果均优于传统方法。
Feb, 2020
通过数据驱动方法,基于模型预测控制设计了一种改进的强化学习方法,该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。
Oct, 2023
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018
本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能,并提出了一种延迟评论者策略梯度(DCPG)算法,该算法可以使用单一统一的网络架构来实现,极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。
Oct, 2022
本文提出了一种名为 “Value Decomposition with Future Prediction” 的强化学习算法,通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分,提高了价值估计的准确性,并在 OpenAI Gym 连续控制任务和几种具有延迟奖励的任务中进行了实验证明其有效性。
Mar, 2021
文章介绍了价值迭代网络(VIN),它是一个内嵌有 “规划模块” 的全可微神经网络,可以学习规划和预测基于规划的推理,如强化学习策略,其中的关键是一种新颖的可微近似值迭代算法,可表示为卷积神经网络,并使用标准反向传播进行端到端训练。我们在离散和连续路径规划域以及基于自然语言的搜索任务上评估 VIN 策略,并表明通过学习显式规划计算,VIN 策略可以更好地推广到新的、未见过的域。
Feb, 2016