面向分布式鲁棒安全强化学习的风险规避模型不确定性

Jan, 2023

面向分布式鲁棒安全强化学习的风险规避模型不确定性

Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning

James Queeney, Mouhacine Benosman

TL;DR我们提出了一个采用深度强化学习的框架，通过相干畸变风险度量考虑模型不确定性的风险规避观点，并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题，并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。

Abstract

Many real-world domains require safe decision making in the presence of uncertainty. In this work, we propose a deep reinforcement learning framework for approaching this important problem. We consider a risk-averse

deep reinforcement learning risk-averse distortion risk measures distributionally robust safety

发现论文，激发创造

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

模型不确定性下分布安全强化学习：一种基于可微凸规划的单层方法

通过使用可微的凸规划，本文提出了一种可追踪的分布安全强化学习框架，旨在解决安全关键环境中由于分布变动而产生的不确定性问题，在保证安全约束的同时有效地找到最坏情况下的不确定性，并通过测试验证了该方法在安全保证方面的显著改进。

Oct, 2023

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态 / 操作空间中扩展了此方法，得出了分布式鲁棒软演员 - 批评家算法的实用算法。

Feb, 2019

深度强化学习中的风险和不确定性估计

提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能。

May, 2019

针对对抗性干扰的坚固安全强化学习

该论文提出了一种鲁棒安全强化学习框架，解决了在真实控制任务中应用强化学习时外部干扰的安全性问题，该框架通过建立鲁棒不变集合来保证安全，并采用约束强化学习算法进行策略优化。

Oct, 2023

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

认知风险敏感强化学习

本文介绍了一种基于偏爱函数的风险感知的增强学习框架，在不确定的环境下可以通过调节风险偏好参数实现风险规避，风险中性或风险承受。同时，作者使用动态规划和策略梯度算法来衡量和控制认知风险，并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。

Jun, 2019

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

针对风险感知强化学习的分布式模型等价性

本文研究的问题是如何学习用于风险敏感强化学习的模型。我们提出了通过分布强化学习引入两个新的模型等价概念，可以使我们规划任何风险度量的最优解，但我们还提出了一种实用可行的风险度量模型并展示了我们的框架可以用来增强任何模型无关的风险敏感算法。

Jul, 2023