- 策略镜像下降与前瞻
提出了一种名为 $h$-PMD 的新型 PMD 算法类,它将多步贪心策略改进与 PMD 更新规则相结合,以解决具有 lookahead 深度 $h$ 的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。
- 深度强化学习中的政策梯度综合指南:理论、算法与实现
基于政策梯度定理的深度强化学习中,各种强大的政策梯度算法已被提出。本论文提供了对政策梯度算法的整体概述,旨在促进对其理论基础和实际实现的理解,包括连续版本的政策梯度定理的详细证明、收敛性结果以及对实际算法的全面讨论。通过在连续控制环境中比较 - 不需要在策略采样的强化学习中的同策略策略梯度
透过引入自适应的离策略采样方法,本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求,实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。
- 偏置策略梯度方法的二阶收敛性初步分析
强化学习问题的非凸目标函数使得政策梯度算法收敛到一阶稳定点,但应用于无限时限贴现设置的实际实现包括 Monte-Carlo 方法和演员 - 评论家方法,在使用有偏梯度估计器的梯度下降更新时,已有的结果只考虑了无偏梯度估计器。我们通过利用非凸 - 绝对政策优化
最近几年,基于信任区域的在线强化学习在解决复杂控制任务和游戏场景方面取得了显著成果。然而,该类别内现有的最先进算法主要强调期望性能的提升,缺乏对最坏情况下性能结果的控制能力。为了解决这一局限性,我们引入了一种新的目标函数;通过优化该函数,将 - 基于深度策略梯度方法的商品交易
深度强化学习方法在算法性商品交易中的有效性进行了研究,提出了一种新的离散化方案,通过优化交易成本和风险敏感的交易代理来提高 DRL 模型的性能,并且该模型在天然气期货交易中表现出较高的夏普比率及一定的风险自定义能力。
- 评估环境推断误差和局部可观测性对于即时自适应干预的强化学习方法的影响
本文探讨了强化学习方法在学习选择干预策略中的应用,并研究了上下文推理误差和部分可观察行为状态对其有效性的影响。 结果表明,当上下文不确定性增加时,不确定性的传播至关重要,而策略梯度算法可以对部分可观察的行为状态信息提供显著的鲁棒性。
- 减少实际政策优化循环时间调整的成本
探讨了在一个给定的任务中选择 action-cycle 时间时,学习算法的超参数是否需要重新调整,并进行了相应的实验和对比研究,提出了一种基于 cycle time 设置超参数的新方法,以避免针对每个 cycle time 进行昂贵和广泛的 - 强化学习中的三次正则化策略牛顿算法
论文探讨了基于强化学习的控制问题,提出了两种策略牛顿算法,并证明了算法的渐进收敛性和样本复杂度。
- Theta-Resonance: 一种用于设计空间探索的单步强化学习方法
使用 Theta-Resonance 和策略梯度算法探索设计空间并训练智能代理,从而在评估机制反馈下实现最优样本的生成。
- 基于宏动作的部分可观测性多智能体 / 机器人深度强化学习
本文提出了一种基于宏操作(macro-actions)的多智能体强化学习方法,该方法支持异步学习和决策制定,在多智能体 / 机器人领域具有广泛应用价值。本文的算法在多个领域的仿真实验和现实机器人实验中验证了其有效性和高质量解决方案的能力。
- 深度强化学习下的网络控制处理
探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用,为此针对马尔可夫决策过程和半马尔可夫决策过程问题,优化了现有的策略改进边界,并提出了新的策略改进边界,并使用定制的 PPO 算法对处理网络控制问题进行了解决。
- 关于连续动作空间中策略镜像上升的隐藏偏差
本文针对连续动作空间下的强化学习问题,提出一种基于重尾分布参数化的策略梯度算法,并对该算法进行了理论和实验研究,表明该算法相比于标准基准在多种场景下都能得到改进的奖励累积结果。
- ICLR利用残差方差在深度策略梯度中学习价值函数
提供了一种新的方法来训练演员 - 评论家框架中的评论家,使用新的状态 - 值函数逼近,并相对于平均值学习状态(响应地状态 - 动作对)的值,而非如传统的演员 - 评论家算法所学习的绝对值,这种方法证明了其在各种连续控制任务和算法中具有理论上 - AAAI连续博弈的 Helmholtz 分解上的牛顿优化
本文提出了基于 NOHD (Newton Optimization on Helmholtz Decomposition)算法的多智能体学习方法,其基于对系统动力学进行无旋(势能)和无源(哈密顿量)分解,保证了纯无旋和无源系统的二次收敛,且 - 策略梯度算法中无效动作屏蔽的深入研究
本文研究探讨针对复杂的规则游戏,使用深度强化学习算法时,如何解决学习出的策略生成的无效动作问题,给出了合理的理论支持,实证了有效性,并给出了不同的行动遮罩方案的评估。
- MM多样性策略梯度用于高效样本质量多样化优化
本文提出了一种新算法 QDPG,它结合了策略梯度算法和质量多样性方法,用于在连续控制环境中生成多样化和高性能的神经控制器,并且比其他进化算法更具样本效率。
- 视频游戏中深度强化学习综述
本文综述了深度强化学习 (DRL) 的进展,包括基于价值、基于策略和基于模型的算法,并对其在游戏 AI 领域内的应用和挑战进行了讨论和总结。
- KDD策略预测网络:在连续动作空间中,基于模型学习的无模型行为策略
本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法, Policy Prediction Network, 该方法结合了模型自由与模型驱动强化学习,采用了经验证实的裁剪方法,实现了对连续动作空间的模型驱动学习并使其能够更好地适 - IJCAI只有相关信息才重要:过滤噪声样本以提高强化学习效果
本论文提出一种名为 SAUNA 的方法,使用价值函数的差距测量值来选择在策略梯度方法中进行训练的样本,从而过滤掉无效的状态转移,实验结果表明,该方法显著提高了性能。