BriefGPT.xyz
May, 2024
使用贝叶斯世界模型和对数障碍优化的安全探索
Safe Exploration Using Bayesian World Models and Log-Barrier Optimization
HTML
PDF
Yarden As, Bhavya Sukhija, Andreas Krause
TL;DR
一种用于处理约束马尔可夫决策过程的安全强化学习方法CERL被提出,该方法通过利用贝叶斯世界模型并建议对模型的认知不确定性持悲观态度的策略,确保了安全性和学习过程中的安全探索,实验结果显示CERL在处理基于图像观察的CMDP的安全性和最优性方面优于现有最先进方法。
Abstract
A major challenge in deploying
reinforcement learning
in online tasks is ensuring that
safety
is maintained throughout the learning process. In this work, we propose
→