Jul, 2023

Transformers 在强化学习任务中的优势:将记忆与信用分配解耦

TL;DR通过对记忆长度和信用分配长度的定义,并设计简单可配置的任务来衡量这些不同的量,我们的实证结果揭示了 Transformers 可以增强 RL 算法的记忆能力,可以扩展到需要记住 1500 个步骤之前观察的任务,但 Transformers 并不改善长期信用分配。总之,我们的结果解释了 Transformers 在 RL 中的成功原因,同时也凸显了未来研究和基准设计的重要领域。