Jun, 2024

增强模仿学习策略的在线适应性

TL;DR我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实现合理的性能。