本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法,与现有方法相比,其方法更简单且更稳健。
Jan, 2018
本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O(ε^-4)到 O(ε^-3)的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下,该算法在采样 O(ε^-2)次后享有 ε- 全局最优性,这改善了以前已经建立的 O(ε^-3)样本要求。
Dec, 2022
本文研究如何改变回报函数的形式来增强学习最优策略,提出使用通用数学形式的回报函数,并通过元学习来以端到端的方式学习最优回报函数,在迷宫环境和多个 Atari 游戏上进行测试,实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。
May, 2019
本文提出了一种新的风险评估指标 —— 奖励波动率,并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试,证明了该方法的有效性。
Dec, 2019
研究表明,强化学习中存在噪音和随机性,现有的评估程序仅使用期望回报评估政策,限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标,为用户提供选择所需性能与重复性权衡的参数,并通过大量实验验证了这些指标的益处。
Dec, 2023
本文旨在优化均值 - semivariance(MSV)目标,提出了两种基于策略梯度理论和信任域方法的算法,通过在 MuJoCo 上的实验验证其有效性。
Jun, 2022
本文基于强化学习研究了一个基于离散时间的均值方差模型,与其在连续时间中的对应物相比,离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本,我们得出了最优投资策略,其密度函数也是高斯型的。另外,我们设计了相应的强化学习算法。模拟实验和实证分析表明,我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。
本文提出了一种基于线性函数逼近的政策评估算法,将经验政策评估问题转化为一个凸凹优化鞍点问题,并通过一些批量梯度方法和随机方差约减方法解决问题,在实验中取得了良好的效果。
Feb, 2017
本论文对多步方法在深度强化学习中的表现进行了测试和分析,将包括 Retrace 和 Q-learning 等等在内的各种算法与 DQN 进行比较,在山车环境下进行了许多测试,指出需要注意调整 backup length 参数和 target network 更新的频率等细节来提高 Q-learning 等算法的性能。
Jan, 2019
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态 - 动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
Jun, 2023