Feb, 2025
提高变压器世界模型以实现数据高效的强化学习
Improving Transformer World Models for Data-Efficient RL
TL;DR本研究解决了强化学习中样本效率不足的问题,提出了一种新的模型基础强化学习(MBRL)算法,通过精心设计的选择以改善样本效率,并在Craftax-classic基准测试中取得了67.4%的奖励,超越了DreamerV3(53.2%)和人类表现(65.0%)。该方法使用了一种结合CNN和RNN的新型策略架构,并通过“热身的动态”、“最近邻标记器”和“区块教师强制”等三项改进提升了模型表现。