ICLRApr, 2021

使用演员 - 学习者蒸馏技术在增强学习中提高 Transformer 效率

TL;DR使用 Actor-Learner Distillation 过程,我们可以在具有 ' 演员延迟 ' 限制的场景中,通过将学习进展从大容量学习器模型传输到小容量演员模型来利用大型模型容量,而不会超出演员的限制。 以部分可观察环境为背景,在多个具有挑战性的内存环境中,我们使用 Actor-Learner Distillation 恢复了 Transformer 学习器模型的明显样本效率增益,同时保持了 LSTM 演员模型的快速推理和减少总训练时间。