Jun, 2023

基于点的价值迭代算法用于神经符号 POMDPs

TL;DR本文介绍了神经符号人工智能在不确定性的情况下进行序列决策的一种新方法,即神经符号部分可观察马尔可夫决策过程 (NS-POMDPs);提出了基于多面体的新型连续状态置信度分段线性凸表示 (P-PWLC),并且扩展将 Bellman 备份应用于此表示,设计了两种值迭代算法,即经典的值迭代算法和基于点的近似方法。通过两个车辆停车和飞行器避碰案例研究,展示了该方法的实际应用。