基因蒸馏的政策优化
本文提出了一种基于多样性导向的动态规划策略优化算法(DGPO),该算法使用多样性对象来指导一个隐式编码策略,从而在单一的训练过程中学习出多组不同的策略,并将受外部激励约束的优化问题作为概率推理任务来解决,并使用策略迭代来最大化所得的下界。实验结果表明,该方法在各种强化学习任务中有效地找到了多样化的策略,并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。
Jul, 2022
通过加强学习,本研究引入了一种新颖的图扩散策略优化(GDPO)方法,通过针对任意(例如,非可微分)目标优化图扩散模型,用于药物设计等领域的图生成,实验结果表明 GDPO 在具有复杂和多样目标的各种图生成任务中实现了最先进的性能。
Feb, 2024
本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为 MCTSPO,通过使用上界置信度启发式获得更好的探索 - 利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。
Dec, 2019
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
提出了 Constraint-Generation Policy Optimization(CGPO)来优化混合离散 - 连续马氏决策过程(DC-MDPs)中紧凑且可解释的策略类的策略参数。CGPO 能够在许多具有表达性非线性动力学的 DC-MDPs 上提供无限范围内初始状态的有界策略误差保证,并在结束时可以证明导出最优策略。此外,CGPO 还能生成最坏情况下的状态轨迹来诊断策略缺陷,并提供最优操作的反事实解释。通过提出一个双层混合整数非线性优化框架,并将其简化为一个生成最坏情况下状态轨迹的最优约束生成方法,CGPO 实现了这些结果。此外,利用现代非线性优化器,CGPO 可以获得带有有界最优性差的解。我们通过显式边际化(如适用)或概率约束处理随机转换,提供高概率的策略性能保证。我们还提出了理解不同策略、奖励和转换动力学表达性类的计算复杂性的路线图。实验证明了 CGPO 在各种领域的适用性,包括库存控制、水库系统管理和物理控制等。总之,我们提供了一种解决方案,用于推导带有有界性能保证、紧凑且可解释的结构化策略,实现最坏情况的生成和反事实策略诊断。
Jan, 2024
本文介绍了 Proximal Policy Optimization (PPO) 算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Sep, 2020
本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。
Jul, 2022
本文介绍了一种名为 Robust Policy Optimization 的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比 PPO 等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架,命名为差分策略优化(DPO)。DPO 是一种点对点和阶段对阶段迭代方法,通过本地运动算子编码的策略进行优化,具有可扩展性,且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。
Apr, 2024