- 简化混合策略参数化的 CVaR 优化样本效率改进
使用混合策略参数化的方法解决了利用策略梯度来优化 CVaR 时的样本效率问题,实证研究表明该方法在各个基准领域中非常有效。
- 多智能体强化学习学习和校准异质有界理性市场行为
在代理基模型中,我们提出了一种用于在多代理强化学习框架下表示异构处理受限代理的新技术,通过共享策略学习以及代理技能水平的分布,实现了从严格效用最大化到有界理性行为的过渡,并通过使用策略梯度来学习行为,通过在多个实例中验证,我们证明了该模型在 - 悲观的离策多目标优化
多目标优化的离线优化通过现有策略收集的数据进行优化;我们提出了一种悲观估计方法,基于倒数离差分数,可以轻松地插入现有的超体积计算公式进行优化。该方法不仅在理论和实验上改进了朴素的倒数离差分数估计方法,还可以通过策略梯度进行优化,在我们的所有 - 探索实时循环学习的优缺点
本文研究了将实时递归学习和策略梯度相结合的演员 - 评论员方法在 DMLab、ProcGen 和 Atari-2600 环境中的应用,结果表明,在 DMLab 记忆任务中,我们的系统相比于训练了 10 B 帧的 IMPALA 和 R2D2 - 深度强化学习中策略梯度估计偏差的重新审视
本文从深度强化学习的角度重新审视了折扣式情节马尔科夫决策过程(MDP)中政策梯度的估计偏差,重点讨论了状态分布漂移引起的偏差,提出了 3 种减少偏差的方法(小学习率;基于自适应学习率的优化器,KL 正则化),并在连续控制任务上展示了实验结果 - DeepTOP: MDP 和 RMAB 的深度阈值最优策略
本研究探讨了阈值策略在控制问题中的最优策略学习,发现其单调性质使得其策略梯度具有简单表达式,进而构建了一种基于离线策略评估方法的最优阈值策略学习算法,并应用于多臂老虎机问题中的 Whittle index 的学习。仿真结果表明,该算法学习速 - 深度强化学习中的形状建议
本文提出由观察和行动函数构成的势函数的差作为附加奖励的 shaping advice 来增加环境奖励的稀疏性问题的增强学习方法,分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出,使用 shaping advice 能够使规 - 纳入未来信息的策略梯度
这篇论文提出了一种名为 PGIF 的方法,通过信息瓶颈机制,允许强化学习中的代理观察未来的真实结果,从而获得有关未来轨迹动态的更加丰富的信息,以在不完全可观察的环境中实现更高奖励的目标。
- 使用贝叶斯优化的本地政策搜索
提出了一种基于概率模型的算法,结合了强化学习中的政策梯度方法和贝叶斯优化中的权衡充分利用已知信息选取样本的方法,实现了通过主动挑选样本来提高梯度估计的效果和减少样本复杂度,具有广泛的应用前景。
- ICLRES-MAML: 简化无 Hessian 元学习
提出了 ES-MAML 框架,基于进化策略(ES)解决了模型无关元学习(MAML)问题,避免了使用随机策略进行反向传播估计二阶导数时的问题,并可以处理新类型的非光滑适应算子,并且与现有方法竞争力强,经常在查询较少情况下产生更好的自适应。
- rlpyt:基于 PyTorch 的深度强化学习研究代码库
简介:本文介绍了 rlpyt,该代码库通过单一存储库实现了所有深度强化学习算法,包括深度 Q-learning、策略梯度和 Q-value 策略梯度模型,使用 PyTorch 实现模块化。
- WWW上下文推荐的政策梯度
本研究提出了基于策略梯度的上下文推荐模型(PGCR),通过利用时间相关贪心和 Actor-Dropout 两种启发式技术解决了现实环境下上下文问题的应用,包括个性化广告等。实验验证了 PGCR 能够快速收敛,低遗憾,并优于经典上下文贝叶斯和 - 使用专家演示预训练深度演员 - 评论家强化学习算法
本文提出了一种基于专家示范的演员 - 评论家强化学习算法,同时确保性能不会受到专家示范不是全局最优的影响,并在两个典型算法中应用该方法进行试验,表明专家示范预训练不仅能够提高性能,而且更具增强训练的效率。
- AAAI强化学习的预期策略梯度
提出了期望策略梯度(EPG)方法,将随机策略梯度(SPG)和确定性策略梯度(DPG)方法统一起来,用于连续或离散动作空间的强化学习中,实验证明其在多项控制任务中胜过现有方法。
- 策略梯度和软 Q 学习之间等效性的简短变分证明
研究表明,采用 softmax 松弛和熵正则化时,强化学习算法中的 Q-learning 和策略梯度是等效的。这一结果被称为 Donsker-Varadhan 公式,同时也揭示了熵函数和 softmax 函数之间的凸对偶关系。研究者还进一步 - 粒子价值函数
本文介绍从经济学和控制学文献中借鉴的风险敏感价值函数及其对粒子值函数的引入,探讨这些函数对于强化学习问题的应用,以及在 Cliffworld 场景中评估政策梯度的效益。
- ICLRQ-Prop: 基于离线策略评估器的高效采样策略梯度
本篇论文提出了 Q-Prop,一种结合策略梯度和离线强化学习的深度强化学习方法,该方法具有高效和稳定的特性,并在 OpenAI Gym's MuJoCo 连续控制环境上取得了比现有算法更好的性能。
- 无模型模仿学习与策略优化
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
- CVaR 约束 MDPs 的政策梯度
本文研究了风险受限随机最短路径问题中的条件风险价值,提出了两种基于随机逼近、小批量、策略梯度和重要性采样的本地风险最优策略算法,并将条件风险价值估计过程纳入算法中进行梯度和方差的估计和降低。