Jun, 2022

微调与元强化学习的有效性比较

TL;DR本文研究使用 meta - 强化学习方法来完成多个视觉基准测试,在评估这些方法时,我们发现在不同的任务上,多任务预训练加微调的性能相当甚至更好,这与使用 meta-pretraining 和 meta test-time adaptation 的表现相当。因此我们建议在未来的 meta-RL 中加入更具挑战性的任务以及多任务预训练和微调作为更简单,强大的基线。