Feb, 2024

连续时间 POMDP 的近似控制

TL;DR该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题,其中高维过滤分布通过投影到参数化分布族进行了近似,结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上,包括队列系统和化学反应网络,验证了该方法的有效性。