Jun, 2023

比较微调和元学习在少样本策略模仿中的有效性

TL;DR本文探索了用于控制问题的少样本模仿学习,在只访问少数离线结果的情况下学习模仿目标策略的方法,并验证了针对控制问题 fine-tuning 的有效性,提出了一种用于少样本学习的基线,将在一个基础环境上在线训练,然后在目标策略的少量离线结果中进行微调。