风险厌恶强化学习的分布式方法

Feb, 2023

Distributional Method for Risk Averse Reinforcement Learning

Ziteng Cheng, Sebastian Jaimungal, Nick Martin

TL;DR我们提出了一种分布式方法，用于在风险规避马尔可夫决策过程中学习最优策略，该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现，利用了对应动态规划原理中嵌入的某些结构，使用深度神经网络逼近值函数的条件分布，避免了探索阶段的维度灾难，并使用随机选择的一系列模型参数探索了该方法的性能。

Abstract

We introduce a distributional method for learning the optimal policy in risk averse Markov decision process with finite state action spaces, latent costs, and stationary dynamics. We assume sequential observation

distributional method optimal policy risk averse markov decision process dynamic risk measures deep neural network

发现论文，激发创造

分布式强化学习中的风险视角探析

通过风险规划方法提高 DMIX 算法的性能，在多代理环境下进行了全面的实验，此方法可用于探索 Distributional Reinforcement Learning 中风险水平和乐观行为。

Jun, 2022

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态 / 操作空间中扩展了此方法，得出了分布式鲁棒软演员 - 批评家算法的实用算法。

Feb, 2019

乐观陷阱：通过随机化风险准则的分布式强化学习

通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。

Oct, 2023

面向分布式鲁棒安全强化学习的风险规避模型不确定性

我们提出了一个采用深度强化学习的框架，通过相干畸变风险度量考虑模型不确定性的风险规避观点，并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题，并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。

Jan, 2023

大型状态空间下的分布鲁棒基于模型的强化学习

提出了一种基于高斯过程和最大方差缩减算法的模型基础方法，用于学习多输出名义转移动力学，克服了强化学习中的若干挑战，并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。

Sep, 2023

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

证明收敛性的风险敏感分布式强化学习的策略梯度方法

该研究论文介绍了一种用于风险敏感分布式强化学习的策略梯度方法，以及一种基于分布式策略评估和轨迹梯度估计的分类分布式策略梯度算法（CDPG）。通过在随机悬崖环境上进行实验，展示了在分布式强化学习中考虑风险敏感性的益处。

May, 2024

在线风险感知适应的分布式强化学习

介绍了一个新的框架 Distributional RL with Online Risk Adaption (DRL-ORA)，通过在线解决一个总变差最小化问题来量化随机不确定性和认识性不确定性，并通过动态选择认识性风险水平，以解决固定风险水平带来的次优性问题。

Oct, 2023

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

风险敏感强化学习应用于约束条件控制

本文研究带错误状态的马尔可夫决策过程，并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务，实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。

Sep, 2011