AAAIDec, 2021

部分可观测强化学习的分块顺序模型学习

TL;DR本文提出了一种新的序列模型学习体系结构,旨在解决部分可观测的马可夫决策问题。该模型依靠自注意力实现分块序列模型,能够在部分可观测的环境下进行详细的序列学习,而不需要对模型学习中的输入数据进行复杂的块重构。同时,该模型通过使用自正规化重要抽样构建附加的学习网络,并在各种部分可观测的环境中显著优于先前的方法。