May, 2024

高效的递归离策略强化学习需要一个上下文编码器特定的学习率

TL;DR使用一种称为 RESeL 的方法改善了循环强化学习(RL)中的训练稳定性问题,并在部分可观察的决策任务中获得了显著的性能改进。