May, 2023

一个惊人简单的连续行为POMDP求解器:基于策略树的惰性交叉熵搜索

TL;DR本研究提出了一种名为LCEOPT的简单在线POMDP求解器,通过使用迭代更新策略的分布,从而能够更好地解决具有连续动作空间的问题。