Feb, 2023

面向离线 - 在线强化学习的政策扩展方案

TL;DR通过先预训练离线数据,再使用强化学习进行在线微调是一种有效的控制策略学习策略,本文提出了一种策略扩展方案以增加新的策略来参与探索,有效提高了学习效率和性能表现。