Nov, 2024

将安全性嵌入强化学习:信任区域方法的新视角

TL;DR本研究解决了强化学习中存在的不安全行为问题,提出了一种新的方法——受限信任区域策略优化(C-TRPO),通过根据安全约束调整策略空间的几何结构,确保训练过程中的约束满足。实验结果表明,C-TRPO在显著减少约束违规的同时,与最先进的受限马尔可夫决策过程算法相比,在奖励最大化方面具备竞争力。