在线风险感知适应的分布式强化学习

Oct, 2023

在线风险感知适应的分布式强化学习

Distributional Reinforcement Learning with Online Risk-awareness Adaption

Yupeng Wu, Wenjie Huang

TL;DR介绍了一个新的框架 Distributional RL with Online Risk Adaption (DRL-ORA)，通过在线解决一个总变差最小化问题来量化随机不确定性和认识性不确定性，并通过动态选择认识性风险水平，以解决固定风险水平带来的次优性问题。

Abstract

The use of reinforcement learning (RL) in practical applications requires considering sub-optimal outcomes, which depend on the agent's familiarity with the uncertain environment. Dynamically adjusting the level of epistemic risk over the course of learning can tactically achieve relia

reinforcement learning risk adaption uncertainty epistemic risk levels distributional rl

发现论文，激发创造

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

乐观陷阱：通过随机化风险准则的分布式强化学习

通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。

Oct, 2023

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态 / 操作空间中扩展了此方法，得出了分布式鲁棒软演员 - 批评家算法的实用算法。

Feb, 2019

分布式强化学习中的风险视角探析

通过风险规划方法提高 DMIX 算法的性能，在多代理环境下进行了全面的实验，此方法可用于探索 Distributional Reinforcement Learning 中风险水平和乐观行为。

Jun, 2022

面向分布式鲁棒安全强化学习的风险规避模型不确定性

我们提出了一个采用深度强化学习的框架，通过相干畸变风险度量考虑模型不确定性的风险规避观点，并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题，并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。

Jan, 2023

认知风险敏感强化学习

本文介绍了一种基于偏爱函数的风险感知的增强学习框架，在不确定的环境下可以通过调节风险偏好参数实现风险规避，风险中性或风险承受。同时，作者使用动态规划和策略梯度算法来衡量和控制认知风险，并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。

Jun, 2019

风险厌恶强化学习的分布式方法

我们提出了一种分布式方法，用于在风险规避马尔可夫决策过程中学习最优策略，该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现，利用了对应动态规划原理中嵌入的某些结构，使用深度神经网络逼近值函数的条件分布，避免了探索阶段的维度灾难，并使用随机选择的一系列模型参数探索了该方法的性能。

Feb, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

将未标记数据纳入分布鲁棒学习中

本研究介绍了一种新的分布鲁棒学习方法，该方法通过加入无标签数据以限制敌手从指定分布中选择数据，可以有效地进行分类，并提出了一个分布鲁棒的版本，可应用于主动学习。在 14 个真实数据集上的结果表明，该算法往往在传统方法无法提供良好结果的情况下表现出色。

Dec, 2019

风险厌恶稳健对抗强化学习

本文提出了一种风险规避的强化学习算法，通过引入风险规避主角和风险趋避对手的方式，使用价值函数方差来建模风险，避免极端不良事件的发生，该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。

Mar, 2019