Feb, 2024

可证明的风险敏感分布式强化学习与通用函数逼近

TL;DR该研究介绍了一种风险敏感的分布式强化学习(RS-DisRL)框架,包括静态Lipschitz风险度量、泛函逼近等,用于分析评估RSRL策略的估计函数对其有效性和样本复杂度的影响,并设计了两种创新的元算法:面向基于模型的函数逼近的RS-DisRL-M和面向通用价值函数逼近的RS-DisRL-V。通过利用最小二乘回归(LSR)和最大似然估计(MLE)的新颖估计技术,结合增强马尔可夫决策过程(MDP)中的分布式RL,推导出了具有静态Lipschitz风险度量的RSRL的遗憾上界的首个O(√K)依赖关系,对这个领域中的统计有效算法做出了创新性贡献。