Feb, 2020

针对复杂部分观测的判别式粒子滤波强化学习

TL;DR本文提出了一种新的强化学习框架DPFRL,它采用区分性粒子滤波器来进行对复杂部分观察的明确推理,同时在决策中使用学习的区分性更新方法,提高了性能并解决了复杂观测建模的难题,提出的基于矩函数的信念特征在Flickering Atari Games和Habitat环境实验中有较好的表现。