风险敏感的强化学习

Nov, 2013

Risk-sensitive Reinforcement Learning

Yun Shen, Michael J. Tobia, Tobias Sommer, Klaus Obermayer

TL;DR该研究提出了一种风险敏感的强化学习框架，将效用函数应用于时间差分误差，实现非线性转换，将其应用于马尔可夫决策过程的转移概率和获得的奖励，并将其用于解释人类决策行为的特征，通过证明该模型的收敛性和在一个顺序投资任务中的实际应用，进一步验证了风险敏感强化学习框架的有效性。

Abstract

We derive a family of risk-sensitive reinforcement learning methods for agents, who face sequential decision-making tasks in uncertain env

reinforcement learning risk-sensitive sequential decision-making markov decision process prospect theory

发现论文，激发创造

风险敏感马尔可夫决策过程与普遍效用函数下的学习

在实践中，决策者经常面临着不同的风险偏好和不确定性的情况，传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法，并设计了可实现的近似算法来求解该问题。

Nov, 2023

最优传输辅助的风险敏感 Q-Learning

通过将最优输运理论融入 Q-learning 框架，本文提出一种风险敏感的 Q-learning 算法来增强智能体的安全性，以期在优化策略的期望回报的同时，最小化策略的稳态分布与预先定义的风险分布之间的 Wasserstein 距离，从而减少访问危险状态的频率并比传统的 Q-learning 算法更快地趋于稳定的策略。

Jun, 2024

风险敏感强化学习是否得到适当解决？

本论文研究风险敏感强化学习，在已有 RSRL 方法存在优化偏差的理论下，提出新的 Trajectory Q-Learning 算法，能够有效地实现不同风险度量的风险敏感策略。

Jul, 2023

认知风险敏感强化学习

本文介绍了一种基于偏爱函数的风险感知的增强学习框架，在不确定的环境下可以通过调节风险偏好参数实现风险规避，风险中性或风险承受。同时，作者使用动态规划和策略梯度算法来衡量和控制认知风险，并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。

Jun, 2019

连续时间风险敏感强化学习的二次变差惩罚

该研究论文探讨了基于熵正则化的探索性扩散过程形式下的连续时间风险敏感强化学习，包括风险敏感目标函数、马丁格尔观点和二次变化。通过这个特征描述，我们可以通过增加价值过程的实现方差来将非风险敏感 RL 算法应用于风险敏感场景，并证明了该算法在 Merton 投资问题中的收敛性，以及温度参数对学习过程行为的影响。此外，通过模拟实验，展示了风险敏感 RL 在线性二次控制问题中的有限样本性能改善。

Apr, 2024

风险敏感的强化学习：在遗憾中实现近乎最优的风险 - 样本平衡

本文研究了未知转移核情况下的风险敏感强化学习问题，提出了两种模型无关的算法，Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ)，证明了它们的近似最优性，并在样本效率和风险敏感之间达成了权衡（利用类指数效用量化了这种权衡），对风险敏感的强化学习做了第一次回报分析，证明该算法的准最优性。

Jun, 2020

反向风险敏感的强化学习

本研究提出了一种基于人类决策模型的梯度下降型反向强化学习算法，用于解决马尔可夫决策过程中有风险感知的智能体反向强化学习问题，并结合两个案例进行了性能展示。

Mar, 2017

风险敏感强化学习应用于约束条件控制

本文研究带错误状态的马尔可夫决策过程，并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务，实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。

Sep, 2011

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

面向分布式鲁棒安全强化学习的风险规避模型不确定性

我们提出了一个采用深度强化学习的框架，通过相干畸变风险度量考虑模型不确定性的风险规避观点，并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题，并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。

Jan, 2023