Jan, 2023

PIRLNav:利用模仿与强化学习微调的预训练方法实现物体导航

TL;DR该研究通过提出一种两阶段的学习方法,结合模仿学习和强化学习,对ObjectGoal Navigation问题进行研究,展示了对人类演示预训练后进行强化学习的PIRLNav策略,在ObjectNav任务上将成功率从60.0%提升至65.0%。研究发现,相比自动生成的演示,人类演示更具优势,而当IL预训练的准确率较高时,增加训练数据集的规模对RL微调的影响较小,此外,还提出了进一步改进该策略的指导方针。