本文研究了未知转移核情况下的风险敏感强化学习问题,提出了两种模型无关的算法,Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ),证明了它们的近似最优性,并在样本效率和风险敏感之间达成了权衡(利用类指数效用量化了这种权衡),对风险敏感的强化学习做了第一次回报分析,证明该算法的准最优性。
Jun, 2020
该研究介绍了一种风险敏感的分布式强化学习 (RS-DisRL) 框架,包括静态 Lipschitz 风险度量、泛函逼近等,用于分析评估 RSRL 策略的估计函数对其有效性和样本复杂度的影响,并设计了两种创新的元算法:面向基于模型的函数逼近的 RS-DisRL-M 和面向通用价值函数逼近的 RS-DisRL-V。通过利用最小二乘回归 (LSR) 和最大似然估计 (MLE) 的新颖估计技术,结合增强马尔可夫决策过程 (MDP) 中的分布式 RL,推导出了具有静态 Lipschitz 风险度量的 RSRL 的遗憾上界的首个 O (√K) 依赖关系,对这个领域中的统计有效算法做出了创新性贡献。
Feb, 2024
本研究旨在探究基于熵风险度量的风险敏感强化学习,通过开发一种新的风险敏感反馈机制,使得监督过程能够更有效地引导智能体策略的改进,进而提升其性能表现。
Nov, 2021
研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习,提出了两种基于重启的算法以及自适应检测不稳定性的元算法,并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。
Nov, 2022
该论文通过引入后见观察机制,研究了部分可观测环境下风险敏感强化学习的悔恨分析,提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时,能够实现多项式悔恨。该研究对强化学习的理论研究具有特殊意义。
本研究应用 Lipschitz 动态风险度量,提出了两种模型算法用于有限时间马尔可夫决策过程,建立了遗憾上界和下界,并通过数值实验证实了理论结果。
Jun, 2023
本论文研究风险敏感强化学习,在已有 RSRL 方法存在优化偏差的理论下,提出新的 Trajectory Q-Learning 算法,能够有效地实现不同风险度量的风险敏感策略。
Jul, 2023
我们研究了具有优化的等效保证风险(OCE risk)的风险敏感强化学习(Risk-Sensitive Reinforcement Learning),并提出了两种基于标准强化学习的通用元算法:一种基于乐观算法,另一种基于策略优化。
Mar, 2024
本研究提出了一种基于方差置信区间的简单算法 UCRL-V,能够有效降低在未知有限通信 MDP 中的最优遗憾,并在多种环境下的实验证明 UCRL-V 算法优于现有算法。
May, 2019
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Oct, 2022