蒸馏策略优化
研究利用理论达到策略提升保证的同时,结合较高的数据效率进行决策,通过广义的近端优化,基于样本的有效复用,实现了稳定性和样本效率之间的有效平衡,从而在表现上有了提高。
Oct, 2021
本文介绍了一种新的离线强化学习算法(基于混合高斯的 Actor-Critic 方法),该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制,并在众多挑战性的任务上取得了最先进的性能。
Apr, 2022
研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数,可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。
May, 2019
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性。
Dec, 2019
该研究针对 Markov 决策过程中的离策略策略优化问题,开发了一种新颖的离策略策略梯度方法,解决了基于之前行为策略采集数据的状态分布与学习策略下的状态分布不匹配的问题,并提供了该方法的理论收敛保证和实验验证。
Apr, 2019
该研究提出了一类广义政策提升算法,将在线算法和离线算法相结合,在保证策略改进的同时,实现了高效数据复用,为深度强化学习的实际应用提供了可行性。
Jun, 2022