BriefGPT.xyz
Oct, 2024
离线到在线强化学习的非单一政策方法
A Non-Monolithic Policy Approach of Offline-to-Online Reinforcement Learning
HTML
PDF
JaeYoon Kim, Junyu Xuan, Christy Liang, Farookh Hussain
TL;DR
本研究解决了现有的离线到在线强化学习方法在确保在线政策学习充分性方面的不足,尤其是在过度强调探索的情况下。我们提出了一种创新的非单一探索方法,以有效整合离线政策的利用优势和在线政策的探索潜力,从而在性能上超越现有的政策扩展方法(PEX)。
Abstract
Offline-to-online
Reinforcement Learning
(RL) leverages both pre-trained offline policies and online policies trained for downstream tasks, aiming to improve
Data Efficiency
and accelerate performance enhancement
→