AAAINov, 2019

DeepSynth:深度强化学习中任务自动划分的自动机合成

TL;DRDeepSynth 是一种有效训练深度强化学习代理的方法,可在奖励稀疏和非 Markovian 的情况下实现,同时也需要实现未知的高级目标序列。该方法利用合成紧凑自动机的新算法自动发现这种序列结构,并使用环境的跟踪数据合成一个可解释的自动机,从而为控制策略的生成提供指导,并且相较于现有方法在 Montezuma's Revenge 等实验中在策略合成所需的迭代次数上获得了两个数量级的降低,同时也能显著提高可扩展性。