Oct, 2019

强化学习中的 Transformer 稳定化

TL;DR在自然语言处理领域得到了突破性的成功后,本文提出一种修改后的” 转换器” 架构,即门控 Transformer-XL (GTrXL),在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能,超过了 LSTM 并在多任务 DMLab-30 基准套件上取得了最新的成果。