Oct, 2024

离线到在线强化学习的非单一政策方法

TL;DR本研究解决了现有的离线到在线强化学习方法在确保在线政策学习充分性方面的不足,尤其是在过度强调探索的情况下。我们提出了一种创新的非单一探索方法,以有效整合离线政策的利用优势和在线政策的探索潜力,从而在性能上超越现有的政策扩展方法(PEX)。