强化学习的分布视角
本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布式算法 C51。
Oct, 2017
通过对 tabular、线性和非线性逼近设置的分析,研究了分布式 RL 相对于标准 RL 的改进原因。在控制设置中,以经验分析比较了分布式 RL 和标准 RL 的方法,找出了分布式 RL 方法的改进来源。
Jan, 2019
通过风险规划方法提高 DMIX 算法的性能,在多代理环境下进行了全面的实验,此方法可用于探索 Distributional Reinforcement Learning 中风险水平和乐观行为。
Jun, 2022
本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架,证明了投影分布 Bellman 计算器在 distributional RL 中的重要性,从根本上联系 CDRL 和 Cramér 距离,并为基于样本的分类分布式 RL 算法提供了收敛性证明。
Feb, 2018
通过使用马尔可夫链中心极限定理,以近似正态分布的形式建模价值分布,分析计算分位数,提出一种基于价值分布的不确定性的策略更新方法,并在 PPO 和 TRPO 算法上进行连续控制任务测试,显示出性能改进。
Aug, 2022
通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法,证明了该方法的收敛性和最优性,并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。
Oct, 2023
基于模型的贝叶斯强化学习视角,本研究旨在学习马尔科夫决策过程中基于参数(认知)不确定性引发的值函数后验分布的不确定性,通过引入一个 Bellman 算子,我们提出了 Epistemic Quantile-Regression (EQR) 算法,该算法学习了一个值函数分布,可用于策略优化,在几个连续控制任务中进行评估,表现优于已建立的基于模型和无模型算法。
Aug, 2023
探讨了分布式强化学习的优势,通过小损失边界证明了从非分布式方法中获得的边界不如小成本边界强。提出了在线分布式 RL 算法和基于启发式原则的离线 RL 算法,分别证明了其小损失的 PAC 边界和新颖的鲁棒性质。
May, 2023
我们提出了一种分布式方法,用于在风险规避马尔可夫决策过程中学习最优策略,该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现,利用了对应动态规划原理中嵌入的某些结构,使用深度神经网络逼近值函数的条件分布,避免了探索阶段的维度灾难,并使用随机选择的一系列模型参数探索了该方法的性能。
Feb, 2023