Nov, 2023
Uni-O4: 统一在线与离线深度强化学习及多步经验策略优化
Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization
Kun Lei, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao...
TL;DR利用 Uni-o4 方法,将离线学习和在线学习无缝结合,通过离线的策略评估和多步策略改进,实现了优越的离线初始化和稳定快速的在线微调能力,被证明在真实世界环境和模拟基准测试中表现出最先进的性能。