认知风险敏感强化学习
提出了一个框架,通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的aleatoric不确定性,并引入一种考虑不确定性的 DQN 算法,该算法表现出安全的学习行为,并在 MinAtar 测试中表现出优越性能。
May, 2019
本文研究了未知转移核情况下的风险敏感强化学习问题,提出了两种模型无关的算法,Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ),证明了它们的近似最优性,并在样本效率和风险敏感之间达成了权衡(利用类指数效用量化了这种权衡),对风险敏感的强化学习做了第一次回报分析,证明该算法的准最优性。
Jun, 2020
提出一种新的框架,称为Risk-Averse and Soft-Robust methods (RASR),用于联合建模有限和无限时域rMarkov决策过程(MDP)中的认识不确定性和aleatory不确定性与刻画风险。在RASR中,当风险是使用EVaR或熵风险定义时,可以使用时间依赖的风险级别使用动态程序形式化地计算最优风险规避策略。我们还发现特定的RASR目标简化为具有后验平均转移概率的风险规避RL。实验结果表明,我们新的算法通过EVaR和其他标准风险度量一致地缓解不确定性。
Sep, 2022
本研究主要关注序列决策算法中的不确定性和风险问题,通过探索规划和强化学习两种方法,尤其是面向基于模型算法的研究,旨在缓解epistemic和aleatoric不确定性问题。
Apr, 2023
本研究应用Lipschitz动态风险度量,提出了两种模型算法用于有限时间马尔可夫决策过程,建立了遗憾上界和下界,并通过数值实验证实了理论结果。
Jun, 2023
本文研究的问题是如何学习用于风险敏感强化学习的模型。我们提出了通过分布强化学习引入两个新的模型等价概念,可以使我们规划任何风险度量的最优解,但我们还提出了一种实用可行的风险度量模型并展示了我们的框架可以用来增强任何模型无关的风险敏感算法。
Jul, 2023
我们提出了一种基于分布式强化学习的算法,通过估计参数化回报分布来统一估计aleatory和epistemic不确定性,并量化两种不确定性的综合效应以实现风险敏感的勘探。实证结果表明,我们的方法在具有勘探和风险挑战的任务中优于替代方法。
Jan, 2024
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
Mar, 2024
我们研究了风险敏感强化学习,该领域因其在必须管理不确定性和最小化潜在不利结果的情况下提高决策能力而至关重要。尤其是,我们的工作重点是将熵风险度量应用于强化学习问题。我们提出了两种能够证明样本利用效率的算法,分别是基于风险敏感的悲观值迭代算法和利用方差信息和参考优势分解的悲观算法,这有效地改善了对空间维度d和风险敏感因子的依赖。据我们所知,我们获得了第一批能够有证据表明有效的风险敏感离线强化学习算法。
Jul, 2024