ICLRJul, 2021

预训练表示对强化学习智能体的 OOD 泛化的作用

TL;DR通过训练 240 个表示和 1 万多个强化学习策略,评估先前训练的 VAE 表示的不同属性对前向代理的 OOD 泛化的影响,发现有些代理在现实分布变化的情况下仍然表现得非常稳健,而在简单的预测任务中的泛化表现可以可靠地预测代理在各种 OOD 设置下的泛化表现。