Oct, 2023

可扩展的语义非马尔科夫模拟代理用于强化学习

TL;DR最近的强化学习(RL)研究在各种应用中显示出很大的潜力,然而,可伸缩性、可解释性和马尔可夫假设等问题限制了其在某些领域的适用性。本文提出了一种基于时间扩展的注释逻辑的语义代理模拟器,与两个高保真度模拟器相比,我们展示了高达三个数量级的加速,同时保持学习策略的质量,并展示了对非马尔可夫动态和即时动作的建模和利用能力,同时提供可解释的轨迹来描述代理动作的结果。