BriefGPT.xyz
Ask
alpha
关键词
partially observable reinforcement learning
搜索结果 - 2
强化学习中的 Transformer 稳定化
在自然语言处理领域得到了突破性的成功后,本文提出一种修改后的” 转换器” 架构,即门控 Transformer-XL (GTrXL),在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能,超过了 LSTM
→
PDF
5 years ago
稀缺经验学习
使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略,从而更高效地解决部分可观察的强化学习问题,该算法在实验中表现良好。
PDF
22 years ago
Prev
Next