Feb, 2023

非马可夫环境中的政策分歧

TL;DR本文提出了一个基于 transformer 的策略扩散方案,从状态 - 动作对历史数据学习不同的策略,以解决在非马尔可夫环境中由于长时历史数据和奖励的关联性导致的策略相似、过拟合等问题。实验结果表明,该策略扩散方案在多个学习环境下获得了比最近的学习基线更为稳健的性能。