Jun, 2023

一种简单的统一的基于不确定性引导的离线到在线强化学习框架

TL;DR基于离线数据的强化学习方法,通常在实际应用中性能较低,本篇研究提出了一种基于不确定性的 Simple Unified uNcertainty-Guided (SUNG) 框架,通过量化不确定性,设计了一种乐观的探索策略,以及一种自适应的开发方法,在多个数据集上取得了最新的在线调优表现。