Oct, 2024

通过最优性保持转换到平均奖励的强化学习与线性时序逻辑和ω-正则目标

TL;DR本研究解决了强化学习中线性时序逻辑(LTL)和ω-正则目标与传统折扣和平均奖励目标之间的关系这一问题。提出了一种新的方法,通过有限记忆奖励机器以最优性保持的方式将ω-正则目标转换为极限平均奖励问题。研究显示,LTL和ω-正则目标的最优策略可以逐步学习,从而填补了该领域的一个空白。