Mar, 2023

Cal-QL: 在线微调高效的离线校准强化学习预训练

TL;DR本文提出了一种新颖的基于离线数据初始化的强化学习 (RL) 初始值学习框架,称作 Cal-QL,该方法可以快速优化在离线数据上学习的策略,并在探索困难的情况下进行预训练,实验证明该方法在 10/11 个测试任务中超过了现有成熟方法。