Dec, 2024

安全离线强化学习的潜在安全约束策略方法

TL;DR本研究解决了安全离线强化学习中的策略优化与安全约束平衡问题,传统方法常面临性能下降或安全风险增加的困境。我们提出了一种新方法,通过条件变分自编码器学习保守安全策略,并将其转化为约束奖励回报最大化问题,以实现奖励优化和安全合规。本方法在理论分析和实证评估中表现出色,尤其在自主驾驶等复杂场景中优于现有方法。