提出了一个框架,通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性,并引入一种考虑不确定性的 DQN 算法,该算法表现出安全的学习行为,并在 MinAtar 测试中表现出优越性能。
May, 2019
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。
Jan, 2023
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
提出了一种基于期望风险的探索算法,通过训练神经网络和优化策略使智能体具有探索未知状态的能力,在深度强化学习中表现出良好的性能。
Feb, 2023
在实践中,决策者经常面临着不同的风险偏好和不确定性的情况,传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。
Nov, 2023
该研究提出了一种风险敏感的强化学习框架,将效用函数应用于时间差分误差,实现非线性转换,将其应用于马尔可夫决策过程的转移概率和获得的奖励,并将其用于解释人类决策行为的特征,通过证明该模型的收敛性和在一个顺序投资任务中的实际应用,进一步验证了风险敏感强化学习框架的有效性。
Nov, 2013
本文研究了未知转移核情况下的风险敏感强化学习问题,提出了两种模型无关的算法,Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ),证明了它们的近似最优性,并在样本效率和风险敏感之间达成了权衡(利用类指数效用量化了这种权衡),对风险敏感的强化学习做了第一次回报分析,证明该算法的准最优性。
Jun, 2020
通过将风险敏感控制与自适应动作空间课程相结合,我们提出了一种强化学习框架,能够既学习高性能的策略,又避免过多的失败,在真实世界的越野驾驶任务中具有较少的安全违例,并在具有相似挑战的驾驶和非驾驶仿真环境中导致更高性能的策略。
May, 2024
利用强化学习方法和基于排名的预期效用来优化金融问题中的风险和回报,通过开发明确的策略梯度公式,分析了鲁棒的投资组合配置,基准优化和统计套利等问题。
Aug, 2021
介绍了一个新的框架 Distributional RL with Online Risk Adaption (DRL-ORA),通过在线解决一个总变差最小化问题来量化随机不确定性和认识性不确定性,并通过动态选择认识性风险水平,以解决固定风险水平带来的次优性问题。
Oct, 2023