- 矩阵低秩信任域策略优化
该研究提出了一种基于低秩矩阵的模型作为 Trust Region Policy Optimization(TRPO)算法参数的有效替代方法,将随机策略的参数整合成一个矩阵并应用矩阵补全技术,从而降低计算和样本复杂度,并保持相似的综合奖励。
- ICLR智能电网的广义策略学习:FL TRPO 方法
结合联邦学习和信任区域策略优化(FL TRPO)的框架,以降低能源相关排放和成本,证实其在智能电网挑战中学习策略模型的能力。
- 通过重要性采样在自然策略梯度中重新使用历史轨迹:收敛性和收敛速率
本文研究了一种重用历史轨迹的自然策略梯度方法变体,并证明了所提梯度估计器的偏差在渐近上是可以忽略的,算法收敛且重用过去的轨迹有助于提高收敛速度。我们进一步将所提估计器应用于流行的策略优化算法,如信任区域策略优化,并在经典基准测试上验证了我们 - 自适应上界置信度增强的近端策略优化
通过引入自适应 PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善 PPO 的性能,并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。
- 针对随机策略的无信赖区域策略优化
本文提出了一个名为 TREFree 的算法,该算法采用广义代理目标来替代策略上的可信区间约束并在实践中通过保守优化广义目标来有效实施,从而获得更好的策略绩效和样本效率。
- 多智能体信任区域策略优化
该研究将信任区域策略优化(TRPO)扩展到多智能体强化学习(MARL)问题,提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO,该算法能够基于本地观察和私人奖励优化分布式策略,实现完全的去中心化和保护隐私。实验表明,M - ICLR深度策略梯度的实现问题: PPO 和 TRPO 的案例研究
通过对两种流行算法(PPO 和 TRPO)的案例研究,我们研究了深度策略梯度算法中算法进展的根源,并调查了 “代码级优化” 的后果:这些优化仅出现在其他实现中或被描述为核心算法的辅助详细信息,它们似乎具有次要影响,但实际上极大地影响了代理行 - 通过无关行为的发散正则化来实现稳定的政策优化
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有 - ICML基于 Bandit 反馈的乐观策略优化
本研究考虑模型基于强化学习中的政策优化方法,提出了一种乐观的信任域策略优化算法,在离散情况下,对于未知转换和奖励反馈的情况,获得了首个亚线性 Regret 的下界。
- AAAI自适应信任域策略优化:正则化 MDPs 的全局收敛和更快速率
本文考虑在强化学习中使用的一种流行算法 Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了 TRPO 的适应性调节机制实际上是传统信任域方法的 RL 版本,并在规则 - IJCAI回顾性信任区域策略优化
我们提出了一种新的强化学习算法:Hindsight Trust Region Policy Optimization,它通过利用 hindsight 来提高稀疏抽奖的表现,并引入了 QKL 和 HGF 两种方法来提高学习稳定性和表现。我们在 - 神经近端 / 信任区域策略优化实现全局最优策略
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
- AAAI参数化动作空间中强化学习的分层方法
本文提出了一种用于在参数化操作空间中进行强化学习的新型紧凑架构,并探讨了如何使用现有算法(TRPO, SVG)进行训练,结果表明这些方法在测试时优于当前最先进的方法 Parameterized Action DDPG。
- ICLR经验重放的高样本效率演员 - 评论家算法
本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法,通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法,稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表