风险敏感强化学习是否得到适当解决?
该研究介绍了一种风险敏感的分布式强化学习 (RS-DisRL) 框架,包括静态 Lipschitz 风险度量、泛函逼近等,用于分析评估 RSRL 策略的估计函数对其有效性和样本复杂度的影响,并设计了两种创新的元算法:面向基于模型的函数逼近的 RS-DisRL-M 和面向通用价值函数逼近的 RS-DisRL-V。通过利用最小二乘回归 (LSR) 和最大似然估计 (MLE) 的新颖估计技术,结合增强马尔可夫决策过程 (MDP) 中的分布式 RL,推导出了具有静态 Lipschitz 风险度量的 RSRL 的遗憾上界的首个 O (√K) 依赖关系,对这个领域中的统计有效算法做出了创新性贡献。
Feb, 2024
研究了通过分布式强化学习方法实现风险敏感强化学习的后悔保证,提出了两种新的 DRL 算法,并通过样本复杂度桥接了 DRL 和 RSRL。同时还改进了现有的下限,并提出了更紧的下限。
Oct, 2022
该研究提出了一种风险敏感的强化学习框架,将效用函数应用于时间差分误差,实现非线性转换,将其应用于马尔可夫决策过程的转移概率和获得的奖励,并将其用于解释人类决策行为的特征,通过证明该模型的收敛性和在一个顺序投资任务中的实际应用,进一步验证了风险敏感强化学习框架的有效性。
Nov, 2013
通过将最优输运理论融入 Q-learning 框架,本文提出一种风险敏感的 Q-learning 算法来增强智能体的安全性,以期在优化策略的期望回报的同时,最小化策略的稳态分布与预先定义的风险分布之间的 Wasserstein 距离,从而减少访问危险状态的频率并比传统的 Q-learning 算法更快地趋于稳定的策略。
Jun, 2024
该研究论文介绍了一种用于风险敏感分布式强化学习的策略梯度方法,以及一种基于分布式策略评估和轨迹梯度估计的分类分布式策略梯度算法(CDPG)。通过在随机悬崖环境上进行实验,展示了在分布式强化学习中考虑风险敏感性的益处。
May, 2024
该研究论文探讨了基于熵正则化的探索性扩散过程形式下的连续时间风险敏感强化学习,包括风险敏感目标函数、马丁格尔观点和二次变化。通过这个特征描述,我们可以通过增加价值过程的实现方差来将非风险敏感 RL 算法应用于风险敏感场景,并证明了该算法在 Merton 投资问题中的收敛性,以及温度参数对学习过程行为的影响。此外,通过模拟实验,展示了风险敏感 RL 在线性二次控制问题中的有限样本性能改善。
Apr, 2024
本文研究了未知转移核情况下的风险敏感强化学习问题,提出了两种模型无关的算法,Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ),证明了它们的近似最优性,并在样本效率和风险敏感之间达成了权衡(利用类指数效用量化了这种权衡),对风险敏感的强化学习做了第一次回报分析,证明该算法的准最优性。
Jun, 2020
我们研究了具有优化的等效保证风险(OCE risk)的风险敏感强化学习(Risk-Sensitive Reinforcement Learning),并提出了两种基于标准强化学习的通用元算法:一种基于乐观算法,另一种基于策略优化。
Mar, 2024
通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法,证明了该方法的收敛性和最优性,并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。
Oct, 2023