Oct, 2024
通过最优性保持转换到平均奖励的强化学习与线性时序逻辑和ω-正则目标
Reinforcement Learning with LTL and $ω$-Regular Objectives via
Optimality-Preserving Translation to Average Rewards
TL;DR本研究解决了强化学习中线性时序逻辑(LTL)和ω-正则目标与传统折扣和平均奖励目标之间的关系这一问题。提出了一种新的方法,通过有限记忆奖励机器以最优性保持的方式将ω-正则目标转换为极限平均奖励问题。研究显示,LTL和ω-正则目标的最优策略可以逐步学习,从而填补了该领域的一个空白。