May, 2023
一个惊人简单的连续行为 POMDP 求解器:基于策略树的惰性交叉熵搜索
A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy Search Over Policy Trees
Marcus Hoerger, Hanna Kurniawati, Dirk Kroese, Nan Ye
TL;DR本研究提出了一种名为 LCEOPT 的简单在线 POMDP 求解器,通过使用迭代更新策略的分布,从而能够更好地解决具有连续动作空间的问题。