Mar, 2023
Cal-QL: 在线微调高效的离线校准强化学习预训练
Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
Mitsuhiko Nakamoto, Yuexiang Zhai, Anikait Singh, Max Sobol Mark, Yi Ma...
TL;DR本文提出了一种新颖的基于离线数据初始化的强化学习 (RL) 初始值学习框架,称作 Cal-QL,该方法可以快速优化在离线数据上学习的策略,并在探索困难的情况下进行预训练,实验证明该方法在 10/11 个测试任务中超过了现有成熟方法。