May, 2023

一个惊人简单的连续行为 POMDP 求解器:基于策略树的惰性交叉熵搜索

TL;DR本研究提出了一种名为 LCEOPT 的简单在线 POMDP 求解器,通过使用迭代更新策略的分布,从而能够更好地解决具有连续动作空间的问题。