May, 2023

面向安全多智体强化学习的可证明高效广义拉格朗日策略优化

TL;DR本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法,经更新的minimax决策原始变量和双重变量,达到亚线性后悔率和约束违规率,实现对马尔可夫博弈的高效学习。