Nov, 2023

Uni-O4: 统一在线与离线深度强化学习及多步经验策略优化

TL;DR利用 Uni-o4 方法,将离线学习和在线学习无缝结合,通过离线的策略评估和多步策略改进,实现了优越的离线初始化和稳定快速的在线微调能力,被证明在真实世界环境和模拟基准测试中表现出最先进的性能。