DNA: 双网络结构的近端策略优化
本文提出了一种新的加强学习算法,使用似然变换、原始-对偶空间以及近端算子等技术,解决了关于如何设计可靠、收敛、稳健的加强学习算法、如何保证算法具有预设的安全保证、如何稳定地设计离线-在线学习算法、如何将加强学习与随机优化理论相结合等问题,为相关理论做出了丰富的探索和创新。
May, 2014
本文介绍一种新的神经网络架构,即竞争网络,用于无模型强化学习。竞争网络表示两个独立的估计器:状态值函数和状态依赖性动作优势函数。结果表明,竞争架构有助于在类似值的动作存在的情况下实现更好的策略评估,并使得强化学习代理能够在Atari 2600领域超越现有技术。
Nov, 2015
基于深度神经网络的参数Primal-Dual pi学习方法,旨在解决马尔可夫决策过程中状态空间大和策略离线学习问题,通过基本线性Bellman方法对价值和策略函数进行原始对偶更新,从而更加有效地进行价值和策略更新,在与同类方法比较的测试中表现明显优于最相关的基准方法
Dec, 2017
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维“诅咒”问题,这些算法是基于基于平均状态值函数目标的渐变高演员-评论家和强调梯度的高演员-评论家推导而来,能够保持所有经典Actor-Critic方法的优点,并且在功能逼近方面被证明是可收敛的。
Feb, 2018
介绍了一种混合体结构的深度强化学习算法,其包含多个并行的子演员网络和一个评论家网络,可以将结构化的行动空间分解为更简单的行动空间,并指导所有子演员网络的训练。该算法在参数化行动空间中展示了出色的表现。
Mar, 2019
Phasic Policy Gradient (PPG) 是一种强化学习框架,通过将策略和价值函数训练分成两个不同的阶段来修改传统的在线策略演员-评论家方法,从而在保持各自优点的同时提高样本利用效率。
Sep, 2020
本研究旨在训练多个视觉环境下的RL代理以提高观察泛化性能,并提出了一种延迟评论者策略梯度(DCPG)算法,该算法可以使用单一统一的网络架构来实现,极大地提高了Procgen基准测试的样本效率和观测泛化性能。
Oct, 2022
本文提出了一种新的强化学习算法APO,该算法利用max-min博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个DeepMind控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法APO在性能上始终优于最先进的基于策略的PPO代理,并且与最先进的数据增强,RAD和基于正式的DRAC等方法进行了比较。
Apr, 2023
本文提出了一种新的多智能体价值算法,混合Q-函数(MQF),通过同时评估多种动作,改善了多智能体连续领域中基于价值的方法,促进了智能体之间的合作,并在六个合作多智能体场景中实证发现MQF通过快速动作评估和增加样本效率优于四个变种的深度确定性策略梯度算法。
Feb, 2024
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024