分布式强化学习中的风险视角探析
通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法,证明了该方法的收敛性和最优性,并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。
Oct, 2023
本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态 / 操作空间中扩展了此方法,得出了分布式鲁棒软演员 - 批评家算法的实用算法。
Feb, 2019
我们提出了一种分布式方法,用于在风险规避马尔可夫决策过程中学习最优策略,该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现,利用了对应动态规划原理中嵌入的某些结构,使用深度神经网络逼近值函数的条件分布,避免了探索阶段的维度灾难,并使用随机选择的一系列模型参数探索了该方法的性能。
Feb, 2023
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。
Jan, 2023
介绍了一个新的框架 Distributional RL with Online Risk Adaption (DRL-ORA),通过在线解决一个总变差最小化问题来量化随机不确定性和认识性不确定性,并通过动态选择认识性风险水平,以解决固定风险水平带来的次优性问题。
Oct, 2023
本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布式算法 C51。
Oct, 2017
本论文提出的一种深度深度强化学习探索方法具有两个组成部分:有一个递减的时间表来抑制内在不确定性,一个探索奖励是从所学分布的上分位数中计算出来的,实验结果表明,我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩,在难度较大的 3D 驾驶模拟器 (CARLA) 中,我们的算法安全奖励达到了近乎最优,比 QRDQN 快两倍。
May, 2019
本文提出了简化的单步分布式强化学习框架(OS-DistrRL),包括环境单步动态引入的随机性。我们证明了提出的框架可以在策略评估和控制方面提供统一的理论,为此我们提出了两种算法,并且进行了几乎肯定的收敛性分析。该方法在各种环境下与分类 DistrRL 进行比较,表现出优越性。
Apr, 2023