BriefGPT.xyz
Ask
alpha
关键词
online safe reinforcement learning
搜索结果 - 2
多约束安全增强学习的梯度塑形
利用多目标优化(MOO)的统一框架来解决复杂的多约束(MC)安全强化学习(safe RL)问题,通过操纵约束条件的梯度,引入梯度塑形(GradS)方法来改善训练效率,实验证明该方法在各种具有挑战性的 MC 安全 RL 任务中提高了探索性和学
→
PDF
6 months ago
面向安全多智体强化学习的可证明高效广义拉格朗日策略优化
本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法,经更新的 minimax 决策原始变量和双重变量,达到亚线性后悔率和约束违规率,实现对马尔可夫博弈的高效学习。
PDF
a year ago
Prev
Next