May, 2024

具收敛保证的谱风险安全强化学习

TL;DR我们提出了一种基于谱风险度量约束的增强学习算法,该算法利用了谱风险度量的对偶性,通过双层优化结构来实现收敛性和最优性,从而在表格设置中保证了最佳性能,并在连续控制任务中展现出了最好的性能。