May, 2024

使用贝叶斯世界模型和对数障碍优化的安全探索

TL;DR一种用于处理约束马尔可夫决策过程的安全强化学习方法CERL被提出,该方法通过利用贝叶斯世界模型并建议对模型的认知不确定性持悲观态度的策略,确保了安全性和学习过程中的安全探索,实验结果显示CERL在处理基于图像观察的CMDP的安全性和最优性方面优于现有最先进方法。