May, 2025
IN-RIL:用于策略微调的交替强化学习与模仿学习
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy
Fine-Tuning
TL;DR本文解决了现有模仿学习与强化学习结合方法在微调阶段的不稳定性和样本效率低下的问题。作者提出了一种新的方法IN-RIL,通过在多次强化学习更新后定期注入模仿学习更新,结合了模仿学习的稳定性和专家数据的指导,从而提高了微调过程中的探索效率。实验结果表明,IN-RIL显著提高了在多种任务中的样本效率,并有效减少了在线微调中的性能崩溃。