Oct, 2023

具有神经感知机制的部分可观测随机博弈

TL;DR提出了神经符号部分可观测随机博弈(NS-POSGs)模型,针对部分可观测的环境及基于连续数据的数据驱动方法,引入了感知机制,提出了基于粒子置信度的一侧 NS-HSVI 方法,用于近似计算一侧 NS-POSGs 的值,并在实验中证明了这一方法对于具有多面体形式的神经网络的实际适用性。