Jan, 2019

模型不确定性下的稳健自适应规划

TL;DR本文提出一种名为 Robust Adaptive Monte Carlo Planning (RAMCP) 的算法,用于计算风险敏感的 Bayes-adaptive 策略,旨在在探索、利用和鲁棒性之间进行最优权衡,可应用于决策和学习等领域中的模型不确定性问题。