本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
研究了深度生成模型所学习的流形的黎曼几何,并提出了计算测地线和沿流形路径平行传递切向量的算法,发现这些模型学习的流形近似于零曲率,并探讨了这种现象的实际影响。
Nov, 2017
基于策略梯度的强化学习代理为了多样性,探究了正则化对行动多样性的影响,并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势,同时不损失准确性。
Oct, 2023
本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用,结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。
Jul, 2021
本文提出了一种面向流形训练深度神经网络的通用框架,利用切空间和指数映射,将最终输出元素在 Riemann 流形上的深度神经网络的训练问题转化为当前深度学习研究的问题,在多类图像分类和人脸图像回归上显示出改进后的性能。
Aug, 2017
本文探讨了如何使用深度神经网络和政策梯度方法,通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题,取得了在高难度 3D 运动任务中显著的实证结果。
Jun, 2015
本论文研究基于 Riemannian 几何的新方法,探索深度神经网络在流形之间的映射及其导致的结构,指出其 pullbacks 在其他流形上生成了诱导偏度量空间的退化 Riemann 度量,给出了这种映射的理论性质,并在实用神经网络中应用其几何框架
Dec, 2021
论文探讨了基于强化学习的控制问题,提出了两种策略牛顿算法,并证明了算法的渐进收敛性和样本复杂度。
Apr, 2023
该研究提出了一种新的机器人策略优化方法,将策略更新视为一个最优输运问题,并利用高斯混合模型和 Riemannian 优化方法来优化机器人的运动策略,该方法在多个机器人任务中表现出更高的成功率和较低的方差。
May, 2023
本文研究了策略梯度在无限时间,连续状态和动作空间,及熵正则化的马尔可夫决策过程中的全局收敛性,并证明了在符合足够正则化的情况下,梯度流指数级收敛到唯一的稳态解。
Jan, 2022