Jun, 2022

何时信任你的模拟器:动态感知的离线与在线混合增强学习

TL;DR本研究提出了一个新的混合离线 - 在线强化学习范式,通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷,并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法,从而为解决实际的复杂任务提供了全新的思路。