BriefGPT.xyz
Feb, 2019
超越置信区间: 坚实的贝叶斯不确定性集合用于强韧MDPs
Beyond Confidence Regions: Tight Bayesian Ambiguity Sets for Robust MDPs
HTML
PDF
Marek Petrik, Reazul Hasan Russell
TL;DR
通过采用贝叶斯推断优化模糊集的大小和位置,提出了一种新范式,无需使用置信区间作为模糊集,可在保证健壮性的同时获得更好的解,基于理论分析和实证结果表明其安全性和实用性。
Abstract
robust mdps
(RMDPs) can be used to compute policies with provable
worst-case guarantees
in
reinforcement learning
. The quality and robustn
→