策略梯度与主动重要性抽样
本文提出一种新的,无模型的策略搜索算法,POIS,它适用于基于动作和基于参数的设置,可在连续控制任务中有效地解决强化学习问题,通过离线优化新的轨迹批次来定义一个替代目标函数,并使用高置信度界限来解决估计的目标函数方差问题。
Sep, 2018
本文介绍了一种针对 Proximal Policy Optimization (PPO) 算法的改良方法,通过维度加权剪裁的方式来避免重大偏差,提高智能体高维任务的样本效率并提升新算法的性能。
May, 2019
通过重要性抽样的估计器取有限差分式,得出了基于策略梯度的有限差分及其方差的算法,提供了一种非常通用而灵活的双重稳健策略梯度估计器,并分析了其方差、与现有估计器的比较及其效果。
Oct, 2019
该论文介绍了一种名为 SIS 的基于状态的重要性采样方法,用于解决强化学习中 target policy 的评估问题,并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明,与传统的重要性采样、逐决策重要性采样和增量重要性采样相比,SIS 具有更小的方差和更高的精度。
Dec, 2022
本文提出了一种新的离线策略估计方法,其中将重要性采样直接应用于平稳态访问分布,从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹,我们开发了一种估计密度比的新方法,并为估算问题设计了 mini-max 损失函数,并推导出了 RKHS 情况下的封闭形式解决方案。
Oct, 2018
本文提出了一种基于动量的策略梯度方法,利用自适应学习率,不需要任何大批量数据,以及基于新的动量方差降低技术和重要性采样,以及力学助理技术,从而提高学习效率。作者证明,该方法具有最佳的样本复杂度,并在实验中验证了其有效性。
Jul, 2020
分析了新型 IS 方法中最流行的方法,通过有限 MDP 的条件蒙特卡罗视角发现,在有限 MDP 中,每决策的 IS 或固定采样 IS 的严格方差减少与普通 IS 相比没有优势。然后,提供了充分的条件,即决策或稳态估计将在有限的时间内在方差上超越 IS。针对渐近时间,提出了上下界并得出充分的条件,允许普通 IS 和每个决策或稳态估计之间存在指数 v.s. 多项式差异。通过这些结果,有助于推进我们对新型 IS 估计器何时提高离线策略评估准确性的理解。
Oct, 2019
学习多步骤离线数据集合的核心问题是强化学习中一项重要的问题。本文提出了一种新的、无 IS 影响的、多步骤离线方法,通过引入一个名为高速公路门的机制,使得算法能够有效地利用未来较远时刻的信息并收敛到最优值函数。在具有延迟奖励的任务中,我们的新方法超越了许多现有的多步骤离线算法。
May, 2024