Nov, 2023

离线数据增强的有保证的在线策略梯度

TL;DR融合强化学习是指强化学习智能体能够同时访问离线数据和与真实环境进行交互的在线数据。本文提出了一种新的融合强化学习算法,它将基于策略的演员 - 评论家方法与离线数据相结合。理论上,我们的方法在离线强化学习特定假设成立时可以获得最佳结果,同时无论离线强化学习假设的有效性如何,仍然保持基于策略的演员 - 评论家方法的理论保证。实验结果表明,在具有挑战性的富观测环境中,我们的方法优于仅依赖于离线策略优化的最先进融合强化学习基准模型,证明了将基于策略和离线学习相结合的实证优势。