Oct, 2022

通过可证明遗憾界实现分布式和风险敏感的强化学习

TL;DR研究了通过分布式强化学习方法实现风险敏感强化学习的后悔保证,提出了两种新的 DRL 算法,并通过样本复杂度桥接了 DRL 和 RSRL。同时还改进了现有的下限,并提出了更紧的下限。