ICMLJun, 2024

研究视觉强化学习中的预训练目标与泛化能力

TL;DR通过在 50 个 Atari 游戏的 10 百万次转换上对 ResNet-50 模型进行预训练,并在各种环境分布下进行评估的 Atari 预训练基准(Atari-PB)实验证明,注重学习任务无关特征(如识别物体和理解时间动态)的预训练目标可增强在不同环境中的泛化能力,而注重学习任务特定知识(如识别代理和拟合奖励函数)的目标仅在与预训练数据集类似的环境中提高性能。